机器学习总结
江謀人
这个作者很懒,什么都没留下…
展开
-
相关性分析——皮尔逊
1.皮尔逊相关系数r的取值在-1与+1之间,若r>0,表明两个变量是正相关,即一个变量的值越大,另一个变量的值也会越大;若r<0,表明两个变量是负相关,即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大表明相关性越强,要注意的是这里并不存在因果关系。若r=0,表明两个变量间不是线性相关,...原创 2019-11-20 13:22:48 · 26030 阅读 · 0 评论 -
假设检验
对数据进行视觉上和定量的正太检验。1.之前,计算机能力有限时,数据分析常用步骤:你制定一个假设,收集你的数据,然后接受或拒绝这个假设。2. 现在是一个高度交互的过程。查看数据,解释数学模型,然后确定模型的最佳拟合参数。3. 从以下几个步骤开始:a. 视觉上检查数据b. 找到极端样本仔细检查c. 确定数据类型,如果是连续的,看是否是正态分布。4 离群值检验:通常定义是离样本均值超...原创 2019-11-20 13:19:10 · 377 阅读 · 0 评论 -
回归问题与分类问题常用损失函数对比
参考文章:https://www.cnblogs.com/massquantity/p/8964029.html叙:损失函数的一般表示为 L(y,f(x)),为了便于不同损失函数的比较,常将其表示为单变量的函数,在回归问题中这个变量为y−f(x),在分类问题中则为yf(x)。1.回归问题的损失函数回归问题中y和f(x)皆为实数∈R,因此用残差 y−f(x)来度量二者的不一致程度。常见的回...转载 2019-07-30 14:02:03 · 1723 阅读 · 0 评论 -
K-means与K-means++
参考:https://blog.csdn.net/u013129109/article/details/80063111https://blog.csdn.net/sorawa/article/details/6630729https://blog.csdn.net/u011204487/article/details/59624571原始k-means算法:1. K-means算法优点...原创 2019-07-31 17:01:15 · 1136 阅读 · 0 评论 -
聚类总结
概念:聚类是针对给定的样本,依据它们特征的相似度与距离,将其归并到若干个‘类’或‘簇’的数据分析问题。聚类的目的是通过得到的类或簇来发现数据的特点或对数据进行处理,在数据挖掘、模式识别等领域有着广泛的应用。...原创 2019-08-01 10:27:42 · 288 阅读 · 0 评论 -
决策树
1.常见的决策树有哪些?2.各自的特点?3.剪枝怎么实现?在线公式编辑:https://codecogs.com/latex/eqneditor.php信息熵计算:https://blog.csdn.net/memray/article/details/443519131.常见的决策树有:ID3,C4.5,CADT.ID3:ID3的节点选择采用的是信息增益,信息增益是衡量信息熵降低的...原创 2019-08-08 15:55:41 · 233 阅读 · 0 评论 -
XGBoost的注意点
注意:xgboost的切分操作和普通的决策树切分过程是不一样的。普通的决策树在切分的时候并不考虑树的复杂度,而依赖后续的剪枝操作来控制。xgboost在切分的时候就已经考虑了树的复杂度,就是那个γ参数。所以,它不需要进行单独的剪枝操作。Adaboost与GBDT两者boosting的不同策略是两者的本质区别。Adaboost强调Adaptive(自适应),通过不断修改样本权重(增大分错...原创 2019-07-29 16:53:39 · 262 阅读 · 0 评论