机器学习
- 从历史数据找出规律
- 数据代替expert
业务系统的发展历史
- 基于专家经验
- 基于统计-分维度统计
- 机器学习-在线学习
机器学习模式
- 离线机器学习-通过定时任务来训练算法,具有缺点,不具有实时性。
- 在线学习-实时学习
机器学习的典型应用
- 关联规则-啤酒和纸尿裤-购物篮分析-捆绑销售-货物摆放位置的挑战-数据挖掘
- 聚类-用户细分精准营销
- 朴素贝叶斯-垃圾邮件识别
- 决策树-信用卡欺诈-银行用来风险识别
- ctr预估-互联网广告
- 协同过滤-电商推荐系统
- 自然语言处理-情感分析,实体识别
- 深度学习-图像识别(模式识别)
机器学习和数据分析的区别
- 数据分析-交易信息-少量数据
- 机器学习-行为数据-海量数据-》大数据
- 数据分析使用采样分析,行为数据使用全量分析-云计算
- 解决业务问题不同
- 分析方法不同,数据分析通过用户驱动,交互式分析,数据挖掘通过数据驱动,自动
进行知识发现机器学习算法分类
- 有监督学习-分类算法,回归算法
- 无监督学习-聚类
- 半监督学习(强化学习)
- 分类与回归
- 聚类
- 标注-文本词性的标注
算法本质分类
- 生成模型
- 判别模型
机器学习算法排名
排名 | 算法类别 | 算法名称 | 说明 |
---|---|---|---|
1 | 分类 | C4.5 | |
2 | 聚类 | K-Means | |
3 | 统计学习 | SVM | |
4 | 关联分析 | Apriori | (多次访问数据,淘汰)FP-Growth后来居上 |
5 | 统计分析 | EM | (算法框架) |
6 | 链接挖掘 | PageRank | (谷歌) |
7 | 集装与推进 | AdaBoost | (人脸识别)-决策树 |
8 | 分类 | kNN | |
9 | 分类 | Naive Bayes | (朴素贝叶斯) |
10 | 分类 | CART |
机器学习常见算法
- FP-Growth
- 逻辑回归
- RF,GBDT
- 推荐算法
- LDA(自然语言处理)
- Word2Vector(文本挖掘)
- HMM,CRF(文本挖掘)
- 深度学习
机器学习解决问题的框架
- 确定目标-业务需求-数据-特征工程(数据预处理)
- 数据决定机器学习的效果
- 训练模型
- 定义模型
- 定义损失函数
- 优化算法
- 模型评估
- 交叉验证
- 效果评估