![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
文章平均质量分 68
开始King
这个作者很懒,什么都没留下…
展开
-
python使用ARIMA进行时间序列的预测(基础教程)
时间序列就是以时间为索引的数据,比如下面这种形式python使用ARIMA建模,主要是使用statsmodels库首先是建模流程,如果不是太明白不用担心,下面会详细的介绍这些过程原创 2022-04-27 22:20:38 · 57069 阅读 · 54 评论 -
2021年MathorCup高校数学建模挑战赛——大数据竞赛赛道A -思路分享
分享mothercup2021大数据挑战赛的思路原创 2022-04-15 15:34:25 · 6404 阅读 · 6 评论 -
CART树的理论基础和代码实战
1 理论推导学过ID3和C4.5的都知道,这些是基于熵选择划分特征的前后顺序,熵的计算公式如下H(p)=−∑i=1npilog2piH(p)=-\displaystyle\sum_{i=1}^n p_ilog_2 p_iH(p)=−i=1∑npilog2pi其实基尼指数是这个熵的泰勒展开近似−plogp=−plog[1−(1−p)]≈−p[−(1−p)]=p(1−p)-plogp=-plog[1-(1-p)]≈-p[-(1-p)]=p(1-p)−plogp=−plog[1−(1−p)原创 2022-04-05 21:56:05 · 1545 阅读 · 0 评论 -
leastsq函数的使用
leastsq作用:最小化一组方程的平方和。参数设置:func 误差函数x0 初始化的参数args 其他的额外参数举个例子就清楚了首先创建样本点import numpy as npimport scipy as spfrom scipy.optimize import leastsqimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_原创 2022-03-15 16:03:08 · 2465 阅读 · 0 评论 -
机器学习建模流程
机器学习实战机器学习三把斧1.数据清洗1.1缺失值的处理某一列的特征缺失值达到40%左右,删除这个特征值;或者某一个样本的缺失值过大,那么删除这个样本。而当某个特征的缺失值较少的时候,不能删除这个特征。建模预测:把缺失值当做模型的预测值,用预测的值填充缺失值多重插补:前向填充,后项填充高维映射:就是把缺失值作为一个新的类,只对分类的变量比较好,在广告CTR(点击率)1.2异常值的处理异常:真实的异常,记录的异常。真实的异常:本来就是这个值,只是和其他样本偏移较大记录的异常:本原创 2022-03-25 19:51:02 · 7562 阅读 · 0 评论 -
向量的1范数,2范数,无穷范数,KNN中的Lp距离
L-0范数:用来统计向量中非零元素的个数。L-1范数:向量中所有元素的绝对值之和。L-2范数:欧式距离。L-∞范数:计算向量中的最大值。你也可以这样理解1-范数:║x║1=│x1│+│x2│+…+│xn│║x║_1=│x^1│+│x^2│+…+│x^n│║x║1=│x1│+│x2│+…+│xn│2-范数:║x║2=(│x1│2+│x2│2+…+│xn│2)2║x║_2=\sqrt[2]{(│x^1│^2+│x^2│^2+…+│x^n│^2)}║x║2=2(│x1│2+│x2│2+…+│x原创 2022-03-22 18:53:58 · 3896 阅读 · 0 评论 -
机器学习从理论到实践(常见算法)
机器学习引言1.1机器学习是什么?先看下面这张图片我们人是怎么分辨的,可能是通过是否有胡须,喉结,长发短发等特征区别的。那么机器如何完成这个过程。“学习”的概念请分别讨论下列各组数据的内部关系,并填空。y1y_1y1 = x1x_1x1 + 1.5y2y_2y2 = x22x_2^2x22 + 1.5y=x132+x22+1y = x_1^\frac{3}{2} + x_2^2 + 1y=x123+x22+1下列鸢尾花分别属于哪一类:setosa、versicolor、vir原创 2022-02-23 21:33:44 · 1743 阅读 · 0 评论 -
特征工程基础操作手册
1.特征工程的概念-------------------------------------------》传送门2.数据预处理-------------------------------------------》3.特征构造-------------------------------------------》4.特征选择-------------------------------------------》5.降维与特征转换------------------------------------原创 2022-01-22 21:20:33 · 271 阅读 · 0 评论 -
特征工程-数据预处理
1.特征工程的概念参考我的这篇文章点击这里2.数据预处理2.1探索性数据分析数据使用的是:皮马印第安人糖尿病预测数据集链接:https://pan.baidu.com/s/17M7UfnqGYTkpLmCXUOyTkw提取码:y4fz原创 2022-01-22 21:15:46 · 1492 阅读 · 2 评论 -
特征工程-特征构造
1 特征构建引言如下数据如何放入机器学习算法中可以看出数据中有分类数据,还有缺失值,非数值型的数据,目前的大部分机器学习算法是不能处理有缺失值的数据,机器学习使用的都是数学和统计学的方法,所以需要对这份数据进行特征构建,使它能够放入到机器学习中去。2.分类数据的填充识别每列的类型和等级boolean (布尔值):此列是二元分类数据(是/否),定类等级。city(城市):此列是分类数据,也是定类等级。ordinal_column(顺序列):顾名思义,此列是顺序数据,定序等级quantita原创 2022-01-20 23:57:28 · 1275 阅读 · 0 评论 -
特征工程-特征选择实战
特征选择1.特征选择介绍以鸢尾花为例,如何从以下特征中选择出合适的特征。可能很多人都知道和前四个特征有关,Color和Time这两个特征是被舍弃的但是如何判断前四个特征就是我们最需要的,这就是特征选择特征选择:对坏属性说不选择特征是为了提高预测能力,降低时间成本特征选择的方法:基于统计的特征选择基于模型的特征选择基于统计的特征选择(都是单变量方法)皮尔逊相关系数(Pearson correlations)假设检验2 .数据导入及探索判断信用卡逾期选择特征是为了提原创 2022-01-20 21:36:09 · 2133 阅读 · 0 评论 -
特征工程-综合应用特征转换
任务:构建iris分类模型不同条件下模型性能比较基线模型单判别式模型单主成分模型综合优化模型原创 2022-01-10 17:56:12 · 191 阅读 · 0 评论 -
特征工程:LDA实例(实例)
1.LDA工作流程及实现线性判别分析(LDA,linear discriminant analysis)线性判别分析是特征变换算法,也是有监督分类器。LDA的目标是提取一个新的坐标系,将原始数据集投影到一个低维空间中。在低维空间中获得最佳的类别可分性。...原创 2022-01-07 16:28:49 · 2667 阅读 · 1 评论 -
特征工程:PCA主成分分析(实例)
1.特征转换的介绍样本特征只能从原始数据集中选择吗?答案是否定的。我们可以对原有特征进行组合,转化和提取获取新的特征。其实生活中有很多这样的例子比如:从三维空间到二维平面->用单个摄像头捕获数据时,就像把数据集压入一个二维空间:[x, y, z] ->[CI,C2]->在特征转换中,一开始就不认为原始特征空间是最好的。->可能用更少的特征可以更好的描述数据。下面介绍几个概念:维度缩减:特征转换、特征选择与特征构建特征选择仅限于从原始列中选择特征;特征转换算法原创 2022-01-04 20:11:21 · 3123 阅读 · 8 评论 -
pycorrector安装教程
直接pip install pycorrector 成功了,不行的建议换个网络试试,但是你运行代码的话会报错,提示你要pip install kenlm ,如果你直接用pip安装很可能会报错Microsoft Visual C++ 14.0 or greater is required.所以我建议你直接安装源码包可以参考我的这篇文章安装。附录:安装过程报错:1.OSError: Cannot read model ‘C:\Users\lenovo/.pycorrector/datasets/zh_gi原创 2021-11-26 18:54:16 · 1888 阅读 · 0 评论 -
OSError: Cannot read model ‘C:\Users\lenovo/.pycorrector/datasets/zh_giga.no_cna_cmn.prune01244.klm‘
在经历以kenlm安装的一系列折磨之后,运行代码突然报这个错误,我还以为是我kenlm安装的有问题,结果我有卸载kenml,安装搞了好久还是不行。我突然想到去它提示的报错路径下去看看,发现是一个klm文件,我又百度了一下什么是klm文件KML文件是一种记录运动轨迹的文件,其中包含了运行的每个点的经度、纬度、海拔信息,用户可以使用它来记录下自己的运行轨迹。我一看这也没啥用啊,我直接把这个文件移动到其他地方(为了保险起见不要直接删除)然后再运行代码,成功了第一次训练可能需要时间久...原创 2021-11-26 18:44:34 · 1550 阅读 · 1 评论 -
Windows下kenlm安装
首先下载源码包添加链接描述到解压后的目录下cmdpython setup.py install原创 2021-11-26 11:44:44 · 3668 阅读 · 1 评论 -
cannot import name ‘Imputer‘ from ‘sklearn.preprocessing‘
最近按照教材敲代码的时候发现报这个错误,看了官方文档后才知道现在sklearn.preprocessing中已经不包含Imputer模块了取而代之的是sklearn.impute中的SimpleImputer这个类和之前的Imputer类似所以你只需要把from sklearn.preprocessing import Imputer修改成from sklearn.impute import SimpleImputer...原创 2021-11-09 21:35:28 · 1398 阅读 · 0 评论