(imooc)初识机器学习—理论篇

机器学习

2162974-87e3d5866f655665.png
image.png

从数据中寻找规律

2162974-5aa8618f8e4260ec.png
image.png

*传统统计学方法:
抽样——描述统计——假设检验
*现代机器学习:
从全量中寻找规律


2162974-f4afa05f4c0602a1.png
image.png
2162974-2d05ae675d637efa.png
image.png

机器学习发展

2162974-358f39b5cb46cfdc.png
image.png

业务系统发展

2162974-72653175eb4d9327.png
image.png
  • 机器学习:
    离线机器学习:
    缺点:例如电商的某些节日大促销,爆发大量推荐订单等
    解决可以用实时模型实时推荐,即在线学习

机器学习典型应用

关联原则
2162974-8790e0e879359548.png
image.png
聚类
2162974-cd1c73f2961e3614.png
image.png
朴素贝叶斯和决策树
2162974-6e0ea424c46f78ad.png
image.png

2162974-4083f0da2d2e2bdb.png
image.png
ctr预估和协同过滤
2162974-e821a4203f5246a2.png
image.png
2162974-9d470997a76562c6.png
image.png
自然语言处理和图像识别
2162974-42cc158bf6dc8b60.png
image.png

2162974-a7d7ae3f8178a693.png
image.png
2162974-b5828bc51725adf7.png
image.png

2162974-23fbb31003bbe25c.png
image.png

机器学习和数据分析的区别

2162974-ce706777622c6d16.png
image.png

交易数据


2162974-4359cd5b022ef509.png
image.png

行为数据


2162974-4c81eb26481fc828.png
image.png
2162974-8b89898ef262bc13.png
image.png

机器学习算法分类


算法分类(1)
  • 有监督学习


    2162974-46311d1598b3e689.png

*无监督学习
eg 聚类算法

*半监督学习

算法分类(2)

根据要解决的问题进行分类

  • 分类与回归
    预测y值,针对具体问题
  • 聚类
  • 标注


    2162974-5aa401f87861fad4.png
    image.png
算法分类(3)(重要)
  • 生成模型
    (像是陪审团)告诉它属于各个类的概率等,结果模棱两可。
  • 判别模型
    直接给一个函数,丢一个数据返回结果告诉你哪一类,直指最终目的(像是大法官告诉你是哪一类)

本质区别在于训练数据的思想不同

2162974-6e94e839e389d974.png
image.png

c4.5 cart属于决策树算法,解决分类问题
k—means 聚类,像是电信用户的分类。无监督学习的算法
svm分类算法,基于统计学的算法,有一套完整数学理论支撑,有一定数学门槛(被深度学习光芒盖住)(机器学习面试可能会考)
aprior 关联分析(淘汰),代价高,需要多次访问数据库
同样,PF-growth 解决关联规则问题解决aprior的性能问题。只需要对数据库两边扫描就可以完成数据挖掘,(现在推荐系统有了更多的推荐算法)
PageRank谷歌的算法
Adaboost 常用于人脸识别,本质为决策树,本质解决分类问题(有监督学习)
KNN 有监督学习
朴素贝叶斯 垃圾邮件识别


2162974-5215b91edd858637.png
image.png

逻辑回归:百度谷歌搜索结果的排序
RF,GDBT 同adaboost 决策树算法的改进
推荐算法
LDA 用做文本分析与自然语言处理
WORD2vector 文本挖掘,最终是一个结果,里面用到一系列算法
深度学习:可用于图像识别等等

机器学习解决问题框架

2162974-93a88aed664a4da6.png
  • 确定目标
    业务需求
    数据
    特征工程(重要)
  • 训练模型
    定义模型


    2162974-2df7670ffc581d29.png
    image.png

定义损失函数
eg。做线性回归模型,没有精确解的时候找一个近似
优化算法
eg 让损失函数更小
求函数极小值的优化上,数学问题

  • 模型评估
    交叉评估:
    效果评估:

图片识别demo演示

2162974-6668495a176acdc4.png
image.png

rgb转hsl抽取特征


2162974-24a6f12ba0204830.png
image.png

把图片转换为向量vector

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值