Spark MLlib机器学习—四大类算法说明

一.分类算法(Classification)监督学习算法

  预测所属类别(两个类别中的一个或多个类别中的一个)

  1.二分类算法(Binary Classification)

     a.支持向量机(linear SVMs)

     b.逻辑回归(logisitc regression)

     c.决策树 (decision trees)

     d.随机森林(random forests)

     e.梯度提升树算法(gradient-boosted trees)

     f.朴素贝叶斯算法(naive Bayes)

  2.多分类算法。 

   a.逻辑回归(logisitc regression)

   b.决策树 (decision trees)

   c.随机森林(random forests)

   d.朴素贝叶斯算法(naive Bayes)

 应用场景:

    a.垃圾邮件分类(是,不是)

    b.性别预测(男,女)

    c.广告是否点击预测(是,不是)

    d.水果类别预测(西瓜,香蕉,苹果,梨)

二.回归算法(regression)

预测一个连续的傎

1.决策树(decision trees)

2.线性回归 (Linear Regression)

      Linear Regression

           L1正则化==>Lasso Regression

           L2正则化==>ridge regression

3.随机森林 (random forests)

4.梯度提升树算法 (gradient-boosted trees)

应用场景:

    a.某天天气气温预测(比如:4-25)

    b.某天订单预测

    c.股票涨跌幅度预测

三.推荐算法(Collaborative filtering)

看了又看,买了又买,买了这个商品的用户还买了别的

1.协同过滤算法

   交替最小二乘法(ALS)

2.关联规则算法(购物篮算法)

  频繁模式提升树算法(FP-growth)

 

四.聚类算法(Clustering)

研究对象特征,进行分类的统计方法

聚类算法和分类算法有个最大的区别,缺乏历史可靠资料

预测人的性别

(短发,胡子,喉结)==>男

(长发,没胡子,皮肤白,没有喉结)==>女

 

  以上是有历史可靠资料(经验),可以使用分类算法进行分类(监督学习)

 外星人

 需要去研究外星人(研究对象)的特征,将有相同特性的外星人,归为一类,来确定外星人应该分为哪些类别

    有眼睛归为一类

    皮肤白的归为一类

   个子高的归为一类

   有特异功能的归为一类

   以上由于缺乏历史可靠资料(经验),那么就需要去研究对象的特性,将有相同特性的归为一类,来确定研究对象的类别

   1.K-均值算法(K-means)

 

五.集成(Ensembles)学习算法(融合学习算法)

     将多个机器学习算法合在一起进行预测,然后将预测的结果进行合并

    1.随机森林(Random Forests)

       底层N颗树构成

     2.梯度提升树算法(Gradient-Boosted Trees)

        底层是RF算法

 

关于机器学习的学习方法

       实践-->理论-->实践

 

 

 

机器学习的编程步骤

1.加载数据,进行预处理。

2.提取特征工程。

3.将提取的特征工程数据,交给算法进行训练,得到模型。

4.使用模式进行预测。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值