对机器学习的一点点学习

最近由于工作需要,需要学习一下机器学习,之前虽然也学习过相关课程,但是现在忘得也差不多了。所以,找了一个做机器学习的同学问了一下相关概念,结合实际应用,对机器学习里面的相关内容先混个简单了解。后面会详细学习每一个算法,希望有更深的了解。

(1)Spark和Hadoop
现在企业中两种分布式系统都在使用。Spark现在比较火,主要是因为在Spark上面做机器学习比Hadoop更加快速高效,这是由Spark的特性所决定的。但是具体采用Spark还是hadoop,需要结合实际的应用来选择。Spark和Hadoop可以跑在同样的集群上面,Spark也可以调用Hadoop的一些接口函数。

(2)对几种算法的理解
朴素贝叶斯:有监督分类算法。在Spark中,输入训练数据,算法跑完之后返回的是四个函数,对于新来的数据,便可以通过这四个函数计算出分类结果。
决策树:有监督分类算法。算法输出结果是一组点对,这组点对对应到决策树的每一个节点及其数值。根据这组点对就可以判断新来数据的所属分类了。
Logistic回归(LR):现在在广告推荐方面应用的比较多。线性分类算法。函数返回结果为函数中的参数,对于新输入的数据,计算出结果数值,判断其分类情况。【广告推荐,基于现有的数据:用户输入的关键词和广告信息,学习到回归函数,对于新的关键词,将其和现有广告信息代入计算,计算出排名最靠前的广告】
SVM: 和LR都属于线性回归算法,只是思想不一样。
KNN: 有监督分类。但是KNN应用非常少,因为其K值不好选择,而且计算量比较大。
Adaboost: 是一种boosting算法,主要是通过多个分类器达到好的分类结果。
K-means:聚类算法,无监督聚类,应用比较少。
SVD + pLSA + LDA: 应用的比较火,主要用于计算相似度,推荐这一块。实际效果LDA > pLSA > SVD。【比如给出一篇文章,可以计算出文章的隐形语义(隐形语义可能是一组数字,人为是看不懂的),对于新给出的文章,同样可以计算出其隐形语义,然后计算不同文章之间的相似度】
GBDT: 阿里内部使用的比较多一些。它是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的输出结果累加起来就是最终答案。
Apriori + FP Growth: 频繁项挖掘算法。用在推荐处。

以后每天详细学习一种算法,结合实际应用做出相关的说明。如有错误,及时更正。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值