机器学习
![2162974-87e3d5866f655665.png](https://i-blog.csdnimg.cn/blog_migrate/bcc9dbe981d86dcced977e6c9f73c99a.webp?x-image-process=image/format,png)
image.png
从数据中寻找规律
![2162974-5aa8618f8e4260ec.png](https://i-blog.csdnimg.cn/blog_migrate/d5cdf88752f8203a0de647e4f7d350d4.webp?x-image-process=image/format,png)
image.png
*传统统计学方法:
抽样——描述统计——假设检验
*现代机器学习:
从全量中寻找规律
![2162974-f4afa05f4c0602a1.png](https://i-blog.csdnimg.cn/blog_migrate/ebcddbf27e0c8bae92fce8edd063b6b7.webp?x-image-process=image/format,png)
image.png
![2162974-2d05ae675d637efa.png](https://i-blog.csdnimg.cn/blog_migrate/2d8ac8b6c1b1c59b22489e5a52f0ff19.webp?x-image-process=image/format,png)
image.png
机器学习发展
![2162974-358f39b5cb46cfdc.png](https://i-blog.csdnimg.cn/blog_migrate/65c93930014577d89a20fa56546e3ceb.webp?x-image-process=image/format,png)
image.png
业务系统发展
![2162974-72653175eb4d9327.png](https://i-blog.csdnimg.cn/blog_migrate/cf6840ff1871de116e52f7f4bc739092.webp?x-image-process=image/format,png)
image.png
- 机器学习:
离线机器学习:
缺点:例如电商的某些节日大促销,爆发大量推荐订单等
解决可以用实时模型实时推荐,即在线学习
机器学习典型应用
关联原则
![2162974-8790e0e879359548.png](https://i-blog.csdnimg.cn/blog_migrate/72df59de3ed2f90786303f2228a7ee51.webp?x-image-process=image/format,png)
image.png
聚类
![2162974-cd1c73f2961e3614.png](https://i-blog.csdnimg.cn/blog_migrate/75704915f20cd1592e2f48fef5c29d25.webp?x-image-process=image/format,png)
image.png
朴素贝叶斯和决策树
![2162974-6e0ea424c46f78ad.png](https://i-blog.csdnimg.cn/blog_migrate/87bbd89da9d1f4df77e5bf42a10d1100.webp?x-image-process=image/format,png)
image.png
![2162974-4083f0da2d2e2bdb.png](https://i-blog.csdnimg.cn/blog_migrate/3786e55e39177f1f4ae17bda829f47c8.webp?x-image-process=image/format,png)
image.png
ctr预估和协同过滤
![2162974-e821a4203f5246a2.png](https://i-blog.csdnimg.cn/blog_migrate/a4887feb0a7422d81bc56dfac9cb52d2.webp?x-image-process=image/format,png)
image.png
![2162974-9d470997a76562c6.png](https://i-blog.csdnimg.cn/blog_migrate/e88c3d055cd4b89621eaaa0e1e7b7753.webp?x-image-process=image/format,png)
image.png
自然语言处理和图像识别
![2162974-42cc158bf6dc8b60.png](https://i-blog.csdnimg.cn/blog_migrate/66be7bda6121bafc6fb614180e164675.webp?x-image-process=image/format,png)
image.png
![2162974-a7d7ae3f8178a693.png](https://i-blog.csdnimg.cn/blog_migrate/aa97aa511215f67137a1b302c7c71bd6.webp?x-image-process=image/format,png)
image.png
![2162974-b5828bc51725adf7.png](https://i-blog.csdnimg.cn/blog_migrate/5ea3df1e2efacbb0a98cbad584a8dc44.webp?x-image-process=image/format,png)
image.png
![2162974-23fbb31003bbe25c.png](https://i-blog.csdnimg.cn/blog_migrate/65ab72e4055464a3ed4849d8cad523f0.webp?x-image-process=image/format,png)
image.png
机器学习和数据分析的区别
![2162974-ce706777622c6d16.png](https://i-blog.csdnimg.cn/blog_migrate/77a8077f5002842a7e073316f6127fbc.webp?x-image-process=image/format,png)
image.png
交易数据
![2162974-4359cd5b022ef509.png](https://i-blog.csdnimg.cn/blog_migrate/938bba6146007544c63980a61d879509.webp?x-image-process=image/format,png)
image.png
行为数据
![2162974-4c81eb26481fc828.png](https://i-blog.csdnimg.cn/blog_migrate/5eeb7396fab2d340e86feb169eeecaf3.webp?x-image-process=image/format,png)
image.png
![2162974-8b89898ef262bc13.png](https://i-blog.csdnimg.cn/blog_migrate/ab994df19254e0a9b7434dfed77f5167.webp?x-image-process=image/format,png)
image.png
机器学习算法分类
算法分类(1)
-
有监督学习
*无监督学习
eg 聚类算法
*半监督学习
算法分类(2)
根据要解决的问题进行分类
- 分类与回归
预测y值,针对具体问题 - 聚类
-
标注
image.png
算法分类(3)(重要)
- 生成模型
(像是陪审团)告诉它属于各个类的概率等,结果模棱两可。 - 判别模型
直接给一个函数,丢一个数据返回结果告诉你哪一类,直指最终目的(像是大法官告诉你是哪一类)
本质区别在于训练数据的思想不同
![2162974-6e94e839e389d974.png](https://i-blog.csdnimg.cn/blog_migrate/e27476459977f7f4b3552b9c269a4c68.webp?x-image-process=image/format,png)
image.png
c4.5 cart属于决策树算法,解决分类问题
k—means 聚类,像是电信用户的分类。无监督学习的算法
svm分类算法,基于统计学的算法,有一套完整数学理论支撑,有一定数学门槛(被深度学习光芒盖住)(机器学习面试可能会考)
aprior 关联分析(淘汰),代价高,需要多次访问数据库
同样,PF-growth 解决关联规则问题解决aprior的性能问题。只需要对数据库两边扫描就可以完成数据挖掘,(现在推荐系统有了更多的推荐算法)
PageRank谷歌的算法
Adaboost 常用于人脸识别,本质为决策树,本质解决分类问题(有监督学习)
KNN 有监督学习
朴素贝叶斯 垃圾邮件识别
![2162974-5215b91edd858637.png](https://i-blog.csdnimg.cn/blog_migrate/980318985953dbc1d8ce51abf14cd435.webp?x-image-process=image/format,png)
image.png
逻辑回归:百度谷歌搜索结果的排序
RF,GDBT 同adaboost 决策树算法的改进
推荐算法
LDA 用做文本分析与自然语言处理
WORD2vector 文本挖掘,最终是一个结果,里面用到一系列算法
深度学习:可用于图像识别等等
机器学习解决问题框架
![2162974-93a88aed664a4da6.png](https://i-blog.csdnimg.cn/blog_migrate/0f7bd110e00ba9b18208ca95692eaaf1.webp?x-image-process=image/format,png)
- 确定目标
业务需求
数据
特征工程(重要) -
训练模型
定义模型
image.png
定义损失函数
eg。做线性回归模型,没有精确解的时候找一个近似
优化算法
eg 让损失函数更小
求函数极小值的优化上,数学问题
- 模型评估
交叉评估:
效果评估:
图片识别demo演示
![2162974-6668495a176acdc4.png](https://i-blog.csdnimg.cn/blog_migrate/228972925e24fbdbda5859d9714ae446.webp?x-image-process=image/format,png)
image.png
rgb转hsl抽取特征
![2162974-24a6f12ba0204830.png](https://i-blog.csdnimg.cn/blog_migrate/c3a4cf2b22397935ff3b546fd19722f4.webp?x-image-process=image/format,png)
image.png
把图片转换为向量vector