机器学习的科学成分更重一些 | 数据挖掘的技术成分更重一些 |
---|
数据分析的角度:
数据挖掘并没有机器学习探索人的学习机制这一科学发现任务
数据挖掘中的数据分析是针对海量数据进行的
1.机器学习
是一门多领域交叉学科,涉及概率论、统计学、毕竟轮、凸分析、算法复杂度理论等多门学科,专门研究计算机是怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构,使之不断完善自身的性能
2.数据挖掘
从海量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘中用到了大量的机器学习界提供的数据分析技术和数据库界提供的数据管理技术
机器学习是人工智能的核心领域之一,是数据挖掘中的一种重要工具,然而数据挖掘不仅仅要研究、拓展、应用一些机器学习方法,还要通过许多非机器学习技术解决数据仓储、大规模数据、数据噪声等实践问题
机器学习的涉及面也很宽,常用在数据挖掘上的方法通常只是“从数据学习”。然而机器学习不仅仅可以用在数据挖掘上,些机器学习的子领域甚至与数据挖掘关系不大,如增强学 习与自动控制等
3.典型的数据挖掘和机器学习过程
1. 业务理解
理解业务本身,真本质是什么?是分类问题还是回归问题?数据怎么获取?应用哪些 模型才能解决?
2. 数据理解
获取数据之后,分析数据里面高什么内容,数据是否准确,为下一步的预处理做准备
3. 数据预处理
原始数据会有噪声,格式化也不好,所以为了保证预测的准确性,需要进行数据的预处理
4. 特但是取
特征提取是机器学习最重要、最耗时的一个阶段.
5. 模型构建
使用适当的算法,获取预期准确的值
6. 模型评估
根据测试集来评估模型的准确度
7. 模型应用
将模型部署、应用到实际生产环境中
8. 应用效果评估
根据最终的业务,评估最终的应用效果.
整个过程不断重复,模型也会不断调整,直至达到理想效果