机器学习2

最新推荐文章于 2022-09-16 15:53:23 发布

钟艾伶

最新推荐文章于 2022-09-16 15:53:23 发布

阅读量482

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Daybreak1209/article/details/52793818

版权

一、数据分析VS机器学习

数据分析也是从大量历史数据中分析得到一定规律，不同的是，数据分析的执行者是人，也就是主要依靠人、数据分析师来进行数据分析工作，结果也很大程度上依赖于人的经验和知识水平，而机器学习依靠的是机器，可减少对数据分析师的依赖。具体区别总结为以下几点：

1、数据特点

交易数据VS行为数据

机器学习处理的事用户的行为数据，如搜索历史、浏览历史、点击历史、评论等，对于这些数据，一致性要求不高

数据分析则主要处理用户交易数据，如存取款、通话，转账等数据记录，数据的一致性要求特别高

另外在数据量方面也有很大区别，用户交易数据相对于行为数据而言，实属少量，而用户行为所产生的数据多，所以这就是为什么有些公司并无太多交易数据，因为关注了用户的行为数据，变成大数据公司。

2、分析方法

采样分析VS全量分析，数据分析由于受运算能力的限制，大多使用采样分析，而机器学习则是数据量越大，分析结果越有参考性。

3、解决不同的业务问题

数据分析说历史，历史数据的回顾；机器学习预测未来

4、技术手段不同

机器驱动以算法驱动，数据质量决定结果，算法和算法之间得到的数据结果悬殊并不大，重点是数据的质量

数据分析用户驱动，正确性取决于企业分析师的经验，用户属性的分析

二、机器学习常见的算法分类

算法分类1：

1、有监督学习

对样本数据进行训练，得到模型。训练数据已经明确的给出了它的属性，例如从一堆垃圾邮件中进行数据分析，已知的信息时这批数据已经是垃圾邮件。

2、无监督的学习

聚类算法，例如用户群分类，前提是不知道用户能分成多少类，把数据丢给算法让它自己计算，这种方式就是无监督学习

3、半监督

数据里有一部分Y值以确定，一部分未确定，一步步通过加多数据来确定Y值。

根据数据中有没有这个Y，把数据分为以上3类。

算法分类2：

根据实际要解决的问题进行算法分类，分类预回归、聚类、标注（文本--切成n个词，名词动词形容词，对所有词汇打上标签，这就是标注，类似于分类）

算法分类3：

直指算法的本质

生成模型--告诉你有一部分属于A类，一部分B类，陪审官

判别模型--直接给你一个函数，告诉你这类数据属于哪类，法官

三、常见算法

预测问题连续型的数据变量、离散型的数据变量

聚类问题分类-用户群分类

四、机器学习整体流程

确定目标，要解决什么业务问题，例如节假日的打车需求量

根据业务需求去收集各种数据

特征工程-提取数据特征，进行数据清洗，将有帮助的数据提取出来，进行结构化。70%的时间都在做特征工程。

1、训练模型

定义模型

最终想得到的就是一个函数，y=nx，但是参数值是不确定的，定义模型就是将函数和函数系数确定。

定义损失函数

做预测，当得不到精确解的时候，预测结果和实际结果的偏差，定义损失函数就在定义这个偏差的大小，来确定在这个偏差范围内最小的最优。主要关心绝对值-平方差等

优化算法

求函数极小值的优化算法----纯数学

2、模型评估

把数据丢到模型中，评估模型，交叉验证效果评估---结果决定了模型是否正确

总结机器学习整体流程大致可分为：得到数据---分成训练数据和验证数据----做特征工程---把数据丢到模型里去验证模型----迭代的过程，不断地去跑模型最终不断优化模型--上线使用

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。