对机器学习的一点点学习

最新推荐文章于 2024-07-09 23:54:05 发布

抄经的和尚

最新推荐文章于 2024-07-09 23:54:05 发布

阅读量435

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/duomengwuyou/article/details/45565845

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

最近由于工作需要，需要学习一下机器学习，之前虽然也学习过相关课程，但是现在忘得也差不多了。所以，找了一个做机器学习的同学问了一下相关概念，结合实际应用，对机器学习里面的相关内容先混个简单了解。后面会详细学习每一个算法，希望有更深的了解。

（1）Spark和Hadoop
现在企业中两种分布式系统都在使用。Spark现在比较火，主要是因为在Spark上面做机器学习比Hadoop更加快速高效，这是由Spark的特性所决定的。但是具体采用Spark还是hadoop，需要结合实际的应用来选择。Spark和Hadoop可以跑在同样的集群上面，Spark也可以调用Hadoop的一些接口函数。

（2）对几种算法的理解
朴素贝叶斯：有监督分类算法。在Spark中，输入训练数据，算法跑完之后返回的是四个函数，对于新来的数据，便可以通过这四个函数计算出分类结果。
决策树：有监督分类算法。算法输出结果是一组点对，这组点对对应到决策树的每一个节点及其数值。根据这组点对就可以判断新来数据的所属分类了。
Logistic回归（LR）：现在在广告推荐方面应用的比较多。线性分类算法。函数返回结果为函数中的参数，对于新输入的数据，计算出结果数值，判断其分类情况。【广告推荐，基于现有的数据：用户输入的关键词和广告信息，学习到回归函数，对于新的关键词，将其和现有广告信息代入计算，计算出排名最靠前的广告】
SVM： 和LR都属于线性回归算法，只是思想不一样。
KNN: 有监督分类。但是KNN应用非常少，因为其K值不好选择，而且计算量比较大。
Adaboost: 是一种boosting算法，主要是通过多个分类器达到好的分类结果。
K-means：聚类算法，无监督聚类，应用比较少。
SVD + pLSA + LDA: 应用的比较火，主要用于计算相似度，推荐这一块。实际效果LDA > pLSA > SVD。【比如给出一篇文章，可以计算出文章的隐形语义（隐形语义可能是一组数字，人为是看不懂的），对于新给出的文章，同样可以计算出其隐形语义，然后计算不同文章之间的相似度】
GBDT: 阿里内部使用的比较多一些。它是一种迭代的决策树算法，该算法由多棵决策树组成，所有树的输出结果累加起来就是最终答案。
Apriori + FP Growth: 频繁项挖掘算法。用在推荐处。

以后每天详细学习一种算法，结合实际应用做出相关的说明。如有错误，及时更正。

抄经的和尚

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
对机器学习的一点点学习

最近由于工作需要，需要学习一下机器学习，之前虽然也学习过相关课程，但是现在忘得也差不多了。所以，找了一个做机器学习的同学问了一下相关概念，结合实际应用，对机器学习里面的相关内容先混个简单了解。后面会详细学习每一个算法，希望有更深的了解。（1）Spark和Hadoop 现在企业中两种分布式系统都在使用。Spark现在比较火，主要是因为在Spark上面做机器学习比Hadoop更加快速高效，这是由Spa
复制链接

扫一扫