机器学习2

一、数据分析VS机器学习
     数据分析也是从大量历史数据中分析得到一定规律,不同的是,数据分析的执行者是人,也就是主要依靠人、数据分析师来进行数据分析工作,结果也很大程度上依赖于人的经验和知识水平,而机器学习依靠的是机器,可减少对数据分析师的依赖 。具体区别总结为以下几点:
1、数据特点
     交易数据VS行为数据
     机器学习处理的事用户的行为数据,如搜索历史、浏览历史、点击历史、评论 等,对于这些数据,一致性要求不高
     数据分析则主要处理用户交易数据,如存取款、通话,转账等数据记录,数据的一致性要求特别高
     另外在数据量方面也有很大区别,用户交易数据相对于行为数据而言,实属少量,而用户行为所产生的数据多,所以这就是为什么有些公司并无太多交易数据,因为关注了用户的行为数据,变成大数据公司。
2、分析方法
     采样分析VS全量分析,数据分析由于受运算能力的限制,大多使用采样分析,而机器学习则是数据量越大,分析结果越有参考性。
3、解决不同的业务问题
     数据分析说历史,历史数据的回顾;机器学习预测未来
4、技术手段不同
     机器驱动以算法驱动,数据质量决定结果,算法和算法之间得到的数据结果悬殊并不大,重点是数据的质量
     数据分析用户驱动,正确性取决于企业分析师的经验,用户属性的分析

二、机器学习常见的算法分类
算法分类1:
1、有监督学习
     对样本数据进行训练,得到模型。训练数据已经明确的给出了它的属性,例如从一堆垃圾邮件中进行数据分析,已知的信息时这批数据已经是垃圾邮件。

2、无监督的学习
     聚类算法,例如用户群分类,前提是不知道用户能分成多少类,把数据丢给算法让它自己计算,这种方式就是无监督学习
3、半监督
     数据里有一部分Y值以确定,一部分未确定,一步步通过加多数据来确定Y值。
     根据数据中有没有这个Y,把数据分为以上3类。
算法分类2:
     根据实际要解决的问题进行算法分类, 分类预回归、 聚类、 标注(文本--切成n个词,名词动词形容词,对所有词汇打上标签,这就是标注,类似于分类)
算法分类3:
     直指算法的本质
     生成模型--告诉你有一部分属于A类,一部分B类,陪审官
     判别模型--直接给你一个函数,告诉你这类数据属于哪类,法官
三、常见算法

     预测问题 连续型的数据变量、离散型的数据变量 
     聚类问题 分类-用户群分类
四、机器学习整体流程
     确定目标,要解决什么业务问题,例如节假日的打车需求量
     根据业务需求去收集各种数据
     特征工程-提取数据特征,进行数据清洗,将有帮助的数据提取出来,进行结构化。70%的时间都在做特征工程。
1、训练模型
定义模型 
     最终想得到的就是一个函数,y=nx,但是参数值是不确定的,定义模型就是将函数和函数系数确定。
定义损失函数
      做预测,当得不到精确解的时候,预测结果和实际结果的偏差,定义损失函数就在定义这个偏差的大小,来确定在这个偏差范围内最小的最优。  主要关心绝对值-平方差等
优化算法
      求函数极小值的优化算法----纯数学
2、模型评估
     把数据丢到模型中,评估模型,交叉验证 效果评估---结果决定了模型是否正确
     总结机器学习整体流程大致可分为:得到数据---分成训练数据和验证数据----做特征工程---把数据丢到模型里去验证模型----迭代的过程,不断地去跑模型最终不断优化模型--上线使用
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值