数据挖掘
文章平均质量分 61
千语_肉丸子
好好学习、天天向上
结交各种大牛、共同进步
展开
-
欠拟合和过拟合学习笔记
在建模的过程中会经常出现1.模型的效果,但是泛化能力弱,2.模型的结果很差的情况,即过拟合和欠拟合,一下是总结的学习笔记1.1欠拟合欠拟合现象:模型准确率低欠拟合原因:模型没有很好地捕捉到数据特征,不能够很好地拟合数据,欠拟合解决方法:1)特征项不够增加特征项。例如,'拉长时间',‘’变量组合‘’、“特征泛化”、“相关性”等2)添加多项式特征,这个在机器学习算...原创 2018-09-07 17:10:33 · 783 阅读 · 0 评论 -
有趣的马氏链及其平稳分布
备注:参考LDA数学八卦讲述很详细,有需要的可以自行下载马氏链的数学定义如下:P(Xt+1=x|Xt,Xt−1,⋯)=P(Xt+1=x|Xt)假设当前这一代人处在下层、中层、上层的人的比例是概率分布向量 π0=[π0(1),π0(2),π0(3)],那么他们的子女的分布比例将是 π1=π0P, 他们的孙子代的分布比例将是 π2=π1P=π0P2, ......,第n代子孙的收入...原创 2017-08-23 17:01:35 · 19989 阅读 · 3 评论 -
均匀分布的概率密度函数和分布函数学习笔记1
1. 两者的定义 概率密度函数:用于直观地描述连续性随机变量(离散型的随机变量下该函数称为分布律),表示瞬时幅值落在某指定范围内的概率,因此是幅值的函数。连续样本空间情形下的概率称为概率密度,当试验次数无限增加,直方图趋近于光滑曲线,曲线下包围的面积表示概率,该曲线即这次试验样本的概率密度函数。 分布函数:用于描述随机变量落在任一区间上的概率。如果将x看成数轴上的随机点的坐标...原创 2017-08-25 17:18:06 · 175512 阅读 · 3 评论 -
L0、L1、L2范数学习笔记
1 L0范数L0范数表示向量中非0元素的个数,即希望数据集中的大部分元素都是0(即希望数据集是稀疏的),所以可以用于ML中做稀疏编码,特征选择,即通过L0范数来寻找最少最优的稀疏特征项。但不幸的是,L0范数的最优化问题是一个NP hard问题,而且理论上有证明,L1范数是L0范数的最优凸近似,因此通常使用L1范数来代替。2 L1范数 常见应用为:Lasso Reg...转载 2017-10-12 17:34:36 · 1972 阅读 · 0 评论 -
相关性和显著性检验学习笔记
相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间需要存在一定的联系或者概率才可以进行相关性分析,反应的线性相关程度的量,比如:流量和收入,收入和顾客、订单等的关系,就具有相关性。相关性分为:正向相关、负相关、不相关(不存在线性关系、可能存在其他关系)、强相关、弱相关为什么要对相关系数进行显著性检验? 因...原创 2018-09-07 14:49:51 · 21866 阅读 · 0 评论 -
L2正则化项为什么能防止过拟合学习笔记
https://www.cnblogs.com/alexanderkun/p/6922428.htmlL2 regularization(权重衰减)L2正则化就是在代价函数后面再加上一个正则化项:C0代表原始的代价函数,后面那一项就是L2正则化项,它是这样来的:所有参数w的平方的和,除以训练集的样本大小n。λ就是正则项系数,权衡正则项与C0项的比重。另外还有一个系数1/2,1/2经...转载 2018-10-31 11:50:40 · 8576 阅读 · 0 评论 -
数据挖掘流程学习笔记—数据探索
数据挖掘流程1.数据探索1.1 数据质量分析a. 缺失值原因:有些信息暂时无法获取或者代价太大;有些信息被遗漏;属性值影响影响:丢失大量有用信息;模型的不确定性更加显著,蕴含的规律难以把握;不可靠的输出处理方法:删除存在缺失值的记录;插补;不处理b.异常值原因:录入错误、含有不合理数据处理方法:简单统计量分析;箱型图分析等c.一致性分析:数据的矛盾性、不相容...原创 2018-10-23 16:02:19 · 359 阅读 · 0 评论 -
不均衡数据处理方法学习笔记
实际生产数据中会出现大量不均衡数据,如果直接对原始数据进行模型训练会使结果失真,达不到预期不均衡数据处理方法主要有三种:一.欠采样:常用的是随机采样缺陷:将多数类样本删除有可能会导致分类器丢失有关多数类的重要信息二.过采样:1.简单复制少数类样本,2.扩大数据集缺陷:可能会导致分类器学习出现过拟合现象三.SMOTE过采样:利用特征空间中现存少数类样本之间的相似性来建立人工数据的(基于...原创 2018-11-16 15:25:25 · 1002 阅读 · 1 评论