机器学习介绍

刚开始学习机器学习,做了一部分总结,希望初学者有所帮助,有不合适的地方还请读者指正。慕课学习笔记。

一、什么是机器学习

1、定义
机器学习为AI的一个分支,利用计算机从历史数据中找出规律,并把规律用到对未来不确定场景的决策问题上。
2、三大基础
(1)机器学习的主体为计算机
(2)原材料为历史数据
(3)通过机器学习的算法寻找规律。从数据中寻找规律是概率论和统计学的研究工作。统计学和机器学习处理数据也不同,统计学需要抽样-描述统计-假设检验。而机器学习无需抽样,数据越多学习的越准确,故无需抽样,寻找函数拟合(用模型刻画规律)
3、机器学习的原动力
利用历史数据找规律,把规律用到未来的预测、用数据代替专家、经济驱动数据变现(只有机器学习能够解决)
4、业务系统发展的历史?
基于专家经验(ifelse)==>基于统计分纬度统计(数据分析的职位)==>机器学习(离线机器学习)==>在线机器学习(如双11大量的实时数据)


二、机器学习的典型应用

(1)购物篮分析-关联规则(数据挖掘)-啤酒纸尿片父亲买纸尿裤会买啤酒
(2)用户细分精准营销-聚类
(3)垃圾邮件识别-朴素贝叶斯
(4)信用卡欺诈-决策树
(5)互联网广告-ctr预估背后的线性逻辑回归(比如搜素得到的信息的排序)
(6)推荐系统-协同过滤
(7)方向-自然语言处理-情感分析和实体识别
(8)推向识别-深度学习
(9)其他-语音识别、个性化医疗、情感分析、人脸识别、自动驾驶、智慧机器人、私人虚拟助理、手势控制、视频内容自动识别、机器实时翻译


三、数据分析和机器学习的区别

(1)数据特点
交易数据(关系型数据库:涉及到钱的交易)VS行为数据(可以是关系也可分布式、CAP:浏览。。。)
少量数据VS海量数据
采样分析VS全量分析
(2)解决的业务问题
报告过去的事情VS预测未来的事情
(3)技术手段
分析方法数据驱动交互式分析VS用户驱动自动进行知识发现
(4)参与者不同
分析师VS数据+算法
(5)目标用户
公司高层VS个体

四、常用算法

1、算法的分类
算法分类1
(1)有监督学习-分类算法和回归算法:对每个邮件打上标签(垃圾邮件、正常邮件)
(2)无监督学习-聚类:开始不知道最终的分类结果
(3)半监督学习-强化学习:有一部分标签不是很好在进行训练
算法分类2(具体问题的类型)
(1)分类与回归
(2)聚类
(3)标注
算法分类3(根据模型):来说分类问题,模型生成方法上不同
(1)生成模型:不直接告诉有哪个类,会告诉概率
(2)判别模型:直接给个函数,输入数据,直接返回结果

2、常用算法
C4.5(现已不用)-分类
K-means-聚类
SVM-分类也可解决回归基于统计学习(有完整数学理论)推理
Apriori(已被淘汰)-》FP-growth(数据库两遍扫描)平台项集关联分析
EM-统计学习
PageRank-连接挖掘
AdaBoost-分类集装与推进
KNN-分类
Naive Bayes- 分类
CART (不用)-分类
其他-FP-growth;逻辑回归; PF、GBDT;推荐算法;LDA文本分析自然语言处理;Word2Vector(文本挖掘);HMM、CRF;深度学习;

五、机器学习解决问题的步骤

确定目标(业务需求+数据+特征工程70%:数据清洗整合重构,转换成可以运算的数据流)
训练模型(定义模型、定义损失函数:定义偏差的大小、优化算法:损失函数求最最小)
模型评估(交叉验证、效果评估:准确率、召回率、平均方差、ROC曲线、AUC)

六、demo-图片按照色彩聚类

关于demo后续会分享在自己的github上,谢谢关注!
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值