一、机器学习与数据挖掘的区别
机器学习:是计算机科学和统计学的交叉学科,基本目标是学习一个函数(映射),来做分类或回归的工作
数据挖掘:是指从数据库大量的数据中挖掘潜在的、有价值的信息并通过清洗分析,最终通过可视化手段表达
机器学习和数据挖掘最终的区别在于:
机器学习通过最小化/最大化损失函数的均值来优化参数。
数据挖掘通过计算模式在每条数据中相应指标的均值来对其筛选。
二、大数据处理系统的分类并举例说明各类处理系统的特点
大数据处理系统分为三类:科学计算系统、批处理系统和流处理系统
1、科学计算系统
科学计算系统是面向计算的高性能计算
(1)有限: 数据集中的数据必须是有限的
(2)集中:科学计算系统处理的数据集中存储
2、批处理系统
批处理系统主要操作大量静态的数据,并且要完成所有处理才能返回结果
(1)大量:批处理系统能大量处理数据并分析
(2)持久: 批处理系统处理的数据一般存储在某个储存器上
(3)有限: 数据集中的数据必须是有限的
3、流处理系统
流处理系统一般分为两种:
1、逐项处理: 每次处理一条数据,是真正意义上的流处理。
2、微批处理: 这种处理方式把一小段时间内的数据当作一个微批次,对这个微批次内的数据进行处理。
其中流处理系统的数据取其实时值,故其实时性要高于其他两种,更流行于现场合的数据处理
三、大数据处理的基本流程
大数据处理流程主要包括数据收集、数据清洗、数据存储、数据分析、数据可视化、数据应用等环节。
1.数据收集
阿里云天池
https://tianchi.aliyun.com/?spm=5176.12282042.J_9711814210.8.60522042SJXm8c
科赛
https://www.kesci.com/home/column
2.数据清洗
数据清洗包括对数据的检测、识别等,有利于提高大数据的一致性、准确性、真实性和可用性等。
3.数据存储
实现对结构化、半结构和非结构化海量数据的存储和管理。
4.数据分析
数据分析是大数据处理过程中最关键的环节,它决定了大数据的价值,选择适合的分析方法能提高大数据分析结果的可用性、价值性和准确性质量
5.数据可视化。
数据可视化是将上一步数据分析得到的结果通过可视化软件如BI、Tableau等,结合图像、表格等方式展示数据业务中隐藏的信息,并能直观地使用户理解其中的信息,真正体现数据分析的价值。