机器学习
文章平均质量分 94
MirandaGirl2018
这个作者很懒,什么都没留下…
展开
-
算法笔试总结
【1】信息增益和信息增益率的区别 用信息增益作为评判划分属性的方法其实是有一定的缺陷的,信息增益准则对那些属性的取值比较多的属性有所偏好,也就是说,采用信息增益作为判定方法,会倾向于去选择属性取值比较多的属性。那么,选择取值多的属性为什么就不好了呢?举个比较极端的例子,如果将身份证号作为一个属性,增益率准则对属性取值较少的时候会有偏好,为了解决这个问题,C4.5并不是直接选择增益率...原创 2018-09-01 15:31:15 · 4087 阅读 · 0 评论 -
算法工程师面试准备
【1】机器学习解决问题的通用流程 首先需要收集问题资料,深入理解问题,明确业务,将问题抽象成机器学习可解决的问题,也就是输入是什么,也就是通常所说的特征,输出是什么,也就是预测值,通过分析首先确定这是一个需要预测(分类、回归)还是需要聚类的问题。然后大致分为三个步骤:一是针对特征的,特征是连续还是离散(涉及需不需要离散化),是稀疏还是密集,高维度还是低维度(需不需要降维),是都含有...转载 2018-08-31 15:57:28 · 20273 阅读 · 0 评论 -
Spark MLlib
Spark机器学习库(MLlib)官方指南手册中文版转载 2018-05-18 17:43:59 · 450 阅读 · 0 评论