究其大数据处理

本文介绍了机器学习与数据挖掘的区别,机器学习侧重于优化参数,而数据挖掘则关注从数据中提取有价值信息。大数据处理系统分为科学计算、批处理和流处理三类,各有其特点。大数据处理流程涵盖数据收集、清洗、存储、分析、可视化和应用等关键步骤。数据清洗确保数据质量和一致性,数据分析决定大数据价值,数据可视化则用于呈现结果。
摘要由CSDN通过智能技术生成

一、机器学习与数据挖掘的区别
机器学习:是计算机科学和统计学的交叉学科,基本目标是学习一个函数(映射),来做分类或回归的工作

数据挖掘:是指从数据库大量的数据中挖掘潜在的、有价值的信息并通过清洗分析,最终通过可视化手段表达

机器学习和数据挖掘最终的区别在于:
机器学习通过最小化/最大化损失函数的均值来优化参数。
数据挖掘通过计算模式在每条数据中相应指标的均值来对其筛选。

二、大数据处理系统的分类并举例说明各类处理系统的特点
大数据处理系统分为三类:科学计算系统、批处理系统和流处理系统

1、科学计算系统
科学计算系统是面向计算的高性能计算
(1)有限: 数据集中的数据必须是有限的
(2)集中:科学计算系统处理的数据集中存储

2、批处理系统
批处理系统主要操作大量静态的数据,并且要完成所有处理才能返回结果
(1)大量:批处理系统能大量处理数据并分析
(2)持久: 批处理系统处理的数据一般存储在某个储存器上
(3)有限: 数据集中的数据必须是有限的

3、流处理系统
流处理系统一般分为两种:
1、逐项处理: 每次处理一条数据,是真正意义上的流处理。
2、微批处理: 这种处理方式把一小段时间内的数据当作一个微批次,对这个微批次内的数据进行处理。
其中流处理系统的数据取其实时值,故其实时性要高于其他两种,更流行于现场合的数据处理

三、大数据处理的基本流程
大数据处理流程主要包括数据收集、数据清洗、数据存储、数据分析、数据可视化、数据应用等环节。

1.数据收集
阿里云天池
https://tianchi.aliyun.com/?spm=5176.12282042.J_9711814210.8.60522042SJXm8c
科赛
https://www.kesci.com/home/column

2.数据清洗
数据清洗包括对数据的检测、识别等,有利于提高大数据的一致性、准确性、真实性和可用性等。

3.数据存储
实现对结构化、半结构和非结构化海量数据的存储和管理。

4.数据分析
数据分析是大数据处理过程中最关键的环节,它决定了大数据的价值,选择适合的分析方法能提高大数据分析结果的可用性、价值性和准确性质量

5.数据可视化。
数据可视化是将上一步数据分析得到的结果通过可视化软件如BI、Tableau等,结合图像、表格等方式展示数据业务中隐藏的信息,并能直观地使用户理解其中的信息,真正体现数据分析的价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值