什么是机器学习?
机器学习是利用计算机从历史数据中找出规律,并把这些规律用到对未来不确定场景的决策。
机器学习发展的原动力?
1、从历史数据中找出规律,把这些规律用到对未来自动做出决定
2、用数据代替专家(expert:经验 规则-由程序员用代码写出来-业务逻辑即用数据来告诉我们规律。)
3、经济驱动,数据变现
大数据推动机器学习的发展
业务系统发展的历史
基于专家经验—>基于统计-分维度统计—>机器学习=在线学习
机器学习两种使用场景 离线学习和在线学习。
离线学习:批处理的方式,对以前的数据进行学习,从而运用到后面的指导中
在线学习:对实时产生的数据进行学习,再对实时得业务进行指导(电商、搜索行业)
机器学习的典型应用
1.购物篮分析——啤酒+止尿片
所谓的购物篮分析就是看在我们的订单中有哪些商品是被同时购买的
用到的算法就是关联规则(实质上是数据挖掘的算法)
2.用户细分精准营销——移动的全球通、动感地带等品牌划分
聚类(根据消费记录得出消费特征进行用户分类)
3.垃圾邮件
朴素贝叶斯算法
4.信用卡欺诈
决策树算法(风险识别)
5、互联网广告
**CTR预估算法(线性的逻辑回归):**点击率的预估->百度搜索
6、推荐系统(类似于购物篮分析)
协同过滤算法,淘宝商品推荐
7.(机器学习子领域)自然语言处理——情感分析和实体识别
8(机器学习子领域).图像识别 ——深度学习
更多应用:语音识别 个性化医疗 情感分析 人脸识别 自动驾驶 智慧机器人 私人虚拟助理 手势控制(体感游戏) 视频内容自动识别 机器实时翻译
机器学习和数据分析的区别
一、数据特点不同(数据类别、数据量、数据分析方法)
机器学习:行为数据(如搜索历史、浏览历史、点击历史、评论等);海量分析,一致性要求相对不高;全量分析
数据分析:交易数据(与钱相关,如用户订单、存取款账单、话费账单等)少量数据,一致性要求严格(如银行存取款,数据精准);采样分析
NOSQL(Not Only SQL)数据库只能用于处理行为数据,强调的是分布式、CAP理论,保证数据吞吐量的前提下,在数据一致性上打折扣
二、解决业务问题不同
机器学习:预测未来事件(未来趋势)
数据分析:报告过去事件(历史总结)
三、技术手段、方法不同
机器学习:数据挖掘;数据(算法)驱动;规模大
数据分析:OLAP;用户驱动(企业数据分析师的经验等);规模小;交互式分析
四、参与者不同
分析师,分析师能力决定结果(目标用户:公司高层)
数据+算法,数据质量决定结果(目标用户:个体)
常见机器学习算法
算法分类1
1.有监督学习(训练数据被提前打好标签):1)分类算法:Y类:垃圾邮件、X类:正常邮件;2)回归算法
2.无监督学习:Y是什么类型我们不知道,聚类:让机器去数据自行分析
3.半监督学习:强化学习,小孩学走路
算法分类(2)(根据解决的问题类型)
1.分类与回归
2.聚类
3.标注
算法分类(3)(根据本质分类)
1.生成模型(概率):不会明确的告诉结果Y,而是给出可能结果的概率
2.判别模型(直接得出结果):给一个X,返回一个明确的Y。
更重要的是它们训练数据模型的思想不一样。
1.决策树算法(有监督):解决分类、回归问题;C4.5、kNN(不常用)
2.聚类:K-Means算法(无监督)
3.统计学习:SVM算法
4.关联分析及规则:Apriori(淘汰)——需多次扫描庞大数据库
FP-Growth——仅需两次扫描数据库
4.推荐算法——电商网站
5.RF(随机森林)算法,梯度提升决策树GBDT,与AdaBoost——都属于对决策树的改进。
6.LDA——文本分析,自然语言处理。
7.Wod2Vector——文本挖掘,最终是一个结果。
8.HMM算法(隐马尔可夫模型),CRF算法(条件随机场)——自然语言处理,文本挖掘。
9.深度学习算法——图像识别
机器学习解决问题的框架
问题分类:
1)预测问题:
1.1分类:离散型变量
1.2回归:连续性变量
2)聚类问题:
一、确定目标:
STEP1:业务需求
STEP2:收集(历史)数据,决定项目质量高度
STEP3:特征工程(数据预处理,如清理整合数据,提取特征)结构化,时间占比70%
二、训练模型
STEP1:定义模型(形成目标公式)
STEP2:定义损失函数(数学的方式定义预测值与现实值的差异)
STEP3:优化算法(寻找确定损失函数极小值)
三、模型评估(标准)
交叉验证
效果评估
DEMO————图片识别(聚类)
阅读更多精彩内容,请关注微信公众号:大众学python