究其大数据处理

最新推荐文章于 2020-10-19 17:58:46 发布

DO VIS

最新推荐文章于 2020-10-19 17:58:46 发布

阅读量119

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43490401/article/details/108783774

版权

本文介绍了机器学习与数据挖掘的区别，机器学习侧重于优化参数，而数据挖掘则关注从数据中提取有价值信息。大数据处理系统分为科学计算、批处理和流处理三类，各有其特点。大数据处理流程涵盖数据收集、清洗、存储、分析、可视化和应用等关键步骤。数据清洗确保数据质量和一致性，数据分析决定大数据价值，数据可视化则用于呈现结果。

摘要由CSDN通过智能技术生成

一、机器学习与数据挖掘的区别
机器学习：是计算机科学和统计学的交叉学科，基本目标是学习一个函数（映射），来做分类或回归的工作

数据挖掘：是指从数据库大量的数据中挖掘潜在的、有价值的信息并通过清洗分析，最终通过可视化手段表达

机器学习和数据挖掘最终的区别在于：
机器学习通过最小化/最大化损失函数的均值来优化参数。
数据挖掘通过计算模式在每条数据中相应指标的均值来对其筛选。

二、大数据处理系统的分类并举例说明各类处理系统的特点
大数据处理系统分为三类：科学计算系统、批处理系统和流处理系统

1、科学计算系统
科学计算系统是面向计算的高性能计算
（1）有限：数据集中的数据必须是有限的
（2）集中：科学计算系统处理的数据集中存储

2、批处理系统
批处理系统主要操作大量静态的数据，并且要完成所有处理才能返回结果
（1）大量：批处理系统能大量处理数据并分析
（2）持久：批处理系统处理的数据一般存储在某个储存器上
（3）有限：数据集中的数据必须是有限的

3、流处理系统
流处理系统一般分为两种：
1、逐项处理：每次处理一条数据，是真正意义上的流处理。
2、微批处理：这种处理方式把一小段时间内的数据当作一个微批次，对这个微批次内的数据进行处理。
其中流处理系统的数据取其实时值，故其实时性要高于其他两种，更流行于现场合的数据处理

三、大数据处理的基本流程
大数据处理流程主要包括数据收集、数据清洗、数据存储、数据分析、数据可视化、数据应用等环节。

1.数据收集
阿里云天池
https://tianchi.aliyun.com/?spm=5176.12282042.J_9711814210.8.60522042SJXm8c
科赛
https://www.kesci.com/home/column

2.数据清洗
数据清洗包括对数据的检测、识别等，有利于提高大数据的一致性、准确性、真实性和可用性等。

3.数据存储
实现对结构化、半结构和非结构化海量数据的存储和管理。

4.数据分析
数据分析是大数据处理过程中最关键的环节，它决定了大数据的价值，选择适合的分析方法能提高大数据分析结果的可用性、价值性和准确性质量

5.数据可视化。
数据可视化是将上一步数据分析得到的结果通过可视化软件如BI、Tableau等，结合图像、表格等方式展示数据业务中隐藏的信息，并能直观地使用户理解其中的信息，真正体现数据分析的价值。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

DO VIS CSDN认证博客专家 CSDN认证企业博客

码龄6年

2: 原创

129万+: 周排名

97万+: 总排名

668: 访问

: 等级

20: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

最新文章

云计算相关

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。