机器学习
空你个指针啊
别忘了你的星辰大海
展开
-
协同过滤算法
协同过滤算法简介协同过滤算法常用语推荐系统中,旨在填补用户项目关联矩阵的缺失条目,spark.mllib目前支持基于模型的协同过滤,其中用户和产品由一小组潜在因素描述,可用于预测缺失的条目。spark.mllib使用交替最小二乘法(ALS)算法来学习这些潜在因素。原理(先占位,等我这两天搞懂了就填上)低秩矩阵最小二乘法Python实现参数 参数 含义 numBlocks 用于并行计算原创 2017-07-12 20:03:07 · 720 阅读 · 0 评论 -
决策树——python(机器学习实战)
原理步骤分解遍历数据集 循环计算提取每个特征的香农熵和信息增益 选取信息增益最大的特征 再递归计算剩余的特征顺序 将特征排序 并将分类结果序列化保存到磁盘当中递归构建决策树使用Matplotlib注解绘制树形图完整代码原理 通过提问的方式,根据不同的答案选择不同的分支, 完成不同的分类步骤分解1.遍历数据集, 循环计算提取每个特征的香农熵和信息增益, 选取信息增益最大的特征。 再递归计算原创 2017-07-17 13:25:58 · 892 阅读 · 0 评论 -
K-Means及Spark实现Kmeans算法
K-means步骤关键步骤聚类个数K的选择初始聚类中心点的选择MLlib的K-means实现参数Spark_K-Means_PythonK-means步骤选择K个点作为初始聚类中心计算其余所有点到聚类中心的距离,并把每个点划分到离它最近的聚类中心所在的聚类中去。计算距离常用欧几里得距离公式,也叫欧氏距离。查看距离的计算方法重新计算每个聚类中所有点的平均值,并将其作为新的聚类中心点原创 2017-07-12 15:48:48 · 10563 阅读 · 1 评论 -
kNN算法——python(机器学习实战)
原理源码加权kNN高斯函数交叉验证原理kNN(k近邻算法)的基本思想就是选择距离待分类点最近的K个点,统计这K个点中出现的分类的概率, 出现概率最高的分类即为待分类点的分类源码from numpy import *import operatordef createDataSet(): # create data set group = array([[1.0, 1.1], [原创 2017-07-17 09:17:31 · 628 阅读 · 0 评论 -
数据预处理—归一化(连续值和离散值)
归一化原因1. 如果多个特征之间数值差异较大,那么收敛速度会很慢。如吴恩达老师在《机器学习》中给出的例子:x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢,相比之下,右图的迭代就会很快2. 在涉及到距离计算的模型中,若多个特征之间数值差异较大,那么数值小的特征原创 2017-08-07 18:27:23 · 18778 阅读 · 2 评论