- 机器学习:利用计算机,从历史数据中寻找规律,并把这些规律用到对未来不确定场景的决策
- 机器学习发展的源动力
- 寻找规律,用于对未来最决定
- 用数据代替专家
- 经济驱动,数据变现
- 业务系统发展的历史
- 期初,基于专家的经验
- 后来,基于统计,分纬度统计,人工olap(online analytical processing),不如各种报表
- 接下来,机器学习(离线学习[批处理],在线学习[实时调整])
- 典型应用
- 购物篮分析:关联规则算法.比如啤酒和纸尿裤.关联规则是一个典型的数据玩挖掘的算法.
- 用户细分精准营销:聚类算法.比如手机卡不同品牌的定位.直接把数据交给算法,进行硬分类,分完类之后再分析每一类的特征.
- 垃圾邮件识别:朴素贝叶斯算法.
- 信用卡欺诈,风险识别:决策树算法.
- 互联网广告:ctr(Click-Through-Rate)预估算法
- 推荐系统:协同过滤算法.类似购物篮分析中的关联规则,但使用的算法不一样,解决的问题一样.
- 自然语言处理:情感分析,实体识别.
- 图像识别:深度学习.
- 机器学习和数据分析的区别
- 数据本身的不同
- 数据类型不同.前者为行为数据(包括浏览等各种行为),后者为交易数据(跟钱有关的数据)
- 行为数据为海量数据,交易数据为少量数据
- 交易数据要求数据一致性高,行为数据一致性低;交易数据可以采样分析,行为数据为全量分析(nosql只能来用来处理行为数据,交易数据必须使用关系型数据库)
- 解决业务不同
- 数据分析报告历史发生的事,机器学习预测未来的事
- 技术手段不同
- 数据分析:用户驱动,交互式分析
- 数据挖掘:数据驱动,自动进行知识发现
- 参与者不同(确定性因素,目标用户)
- 数据本身的不同
- 机器学习算法分类
- (1)有监督(分类问题,回归问题,有目标值),无监督(聚类问题,没有目标值),半监督(强化学习)
- (2)分类与回归,聚类,标注(类似分类但不同,如分词标注)
- (3)生成模型,判别模型.
- 上述两种模型通常用来形容分类问题,判别模型相当于一个函数,直接指出属于哪一个类别;生成模型则指出属于各个类别的概率
- 机器学习中常见算法
- 机器学习解决问题的框架
- 确定业务目标.业务需求(确定要解决的问题),收集数据,对数据进行预处理(特征工程,提取特征,占用机器学习的大量时间,70%)
- 训练模型.定义模型,定义损失函数,优化算法(使损失函数最小)
- 模型评估.交叉验证,效果评估.
Introduction to machine learning
最新推荐文章于 2022-02-28 17:33:39 发布