专升本-大数据

蚂蚁呀嘿哦

于 2024-03-30 19:04:09 发布

阅读量868

点赞数 26

分类专栏：专升本信息技术拓展文章标签：专升本

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_65288775/article/details/137180174

版权

专升本信息技术拓展专栏收录该内容

16 篇文章

订阅专栏

本文详细阐述了大数据的定义，包括其特点（4V和5V），数据来源分类，以及大数据的开发处理过程，涵盖了数据采集（包括ETL技术）、预处理、存储与管理（如NoSQL和分布式文件系统）、分析与挖掘（方法与技术）、可视化和常见的分析处理平台如Hadoop和Spark。此外，还讨论了Hadoop的优缺点及Spark的补充作用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大数据定义：

大数据指无法在可承受的时间范围内用常规软件工具进行捕捉，管理和处理的数据集合。是需要新处理模式才能具有更强的决策力，洞察发现力和流程优化能力的海量，高增长率和多样化的信息资产

大数据数据源的分类(3种)：

结构化数据：使用统一结构表示，如Excel表格，企业人事系统，ERP...
半结构化数据：处于结构和非结构化之间，如电子邮件，网上看的新闻，使用特效的文字....
非结构化数据：没有固定结构的数据，如像图片可以保存为不同的格式(png,jpg...)，此类数据有声音，图像，影像，留言，日志数据...

特征：（4V-5V）

1.Volume:大体量，数据量大

2.Variety:多种类，数据类型多

3.Velocity:高速度，处理速度快，时效性高，数据流转快

4.Value:低价值密度

5.Veracity:准确性，来自现实生活所有信息，具有一定的真实准确性。5V比4V多一个准确性的特征

大数据的起始计量单位是：PB(1000个TB)，EB(100万个TB)，ZB(10亿个TB)

背诵：从Gbit开始： GB,TB,PB,EB,ZB每个之间差约1000倍

PB,EB,ZB--可以记为”骗儿子”

大数据开发处理过程：

大数据采集（来源（5种），采集技术（ETL））
大数据预处理（步骤(4)）
大数据存储与管理 (NoSQL特点)
大数据分析与挖掘 [分析方法（4），挖掘技术（3）]
大数据可视化（可视化是什么，使用什么工具）

数据采集：

数据来源：

WEB端（基于浏览器的网络爬虫，或者API）
APP端（无线客户端采集SDK，或者埋点）
传感器（物联网测量值转换数字信号）
数据库
第三方数据

大数据抽取常用技术(ETL技术)：

抽取（extract）：从各种数据源获取数据
转换（transform）：按格式将源数据转换为目标数据
加载（load）：把目标数据加载到数据仓中

大数据预处理：

步骤（4）：

数据清洗：提高数据质量，去掉缺失值，噪音
数据集成：把各种局部数据整合到一起
数据规约：把数据精简化，但是挖掘的数据结果和简化前是一样的
数据变换：改变数据类型成为适合处理的类型

大数据的存储与管理：

使用非关系型数据库(NOSQ)L

nosql数据模型：类似键值，列族，文档等为关系模型

noSQL特点：可扩展，高性能，高可用，灵活的数据模型

分布式文件系统（FS）：

把文件分部存储带多个计算机节点成千上万的计算机节点构成计算机集群

HDFS --- Hoodp的分布式文件系统；GFS ---Goole的分布式文件系统

大数据分析与挖掘：

1.分析方法分为以下四类：

1.描述型分析：发生了什么？

2.诊断型分析：为什么会发生？

3.预测性分析：可能发生什么？

4.指令型分析：下一步怎么做？

2.数据挖掘技术（3类）：

分类：把数据进行分类对应人工智能的监督,半监督学习

聚类：把相关的别类聚成一个大类对应人工智能的无监督学习

关联规则：把类别之间建立关系对应人工智能的强化学习

大数据可视化：

1.是什么？值运用计算机图形学和图像处理技术，将数据转换为可以在屏幕上显示出来进行交换处理的方法和技术

2.最常用的表现形式：统计图表

常见图表：折线图，柱状图，饼图....

3.使用的工具：excel，tablean，matplotlib,EChart.......

大数据分析处理平台：

1.Hadoop(软件架构)

优点：分布式计算

不足：1.计算模型延迟高 2.无法胜任实时，快速的计算需求（如用于股票类型）

核心三大组件：

HDFS（分布式文件系统）--解决分布式存储

MapReduce(分布式计算框架)--解决分布式计算

YARN(分布式资源管理系统)--Hadoop分布式资源管理器

三种部署模式：

单击模式、伪分布模式、集群模式

Hbase(Hadoop Database):分布式文件存储系统，是HDFS的升级版，实现高可靠，高性能可伸缩，弥补HDFS擅长大数据存储，但不适合小条目存取的不足。

2.spark

弥补了Hadoop中MapReduce延迟高，无法胜任实时计算的缺陷

优点：1.可以通过基于内存来高效处理数据流

2.编程支持Java，python，Scala，R语言

3.可以用于批处理，交互式查询，实时流处理，机器学习和图处理。低延迟

Hadoop环境搭建/部署模式：

单击模式搭建：运行在一台单机上，没有分布式文件系统（HDFS），而是直接读写本地操作系统的文件系统

伪分部模式搭建：在单击上模拟Hadoop的分布式

集群搭建：hadoop守护进程运行在一个集群上

大数据技术使用场景：

关联分析，趋势预测和决策支持

必须知道的：5V，ETL，数据分析和数据清洗的作用，Hadoop缺点和spark优点

蚂蚁呀嘿哦

博客等级

码龄3年

71
原创

599
点赞

598
收藏

459
粉丝

关注

私信

热门文章

分类专栏

最新评论

新一代信息技术元年汇总
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
专升本python程序设计语言概述
CSDN-Ada助手: 非常恭喜您撰写第20篇博客！标题“专升本python程序设计语言概述”听起来非常有吸引力。您对Python程序设计语言的概述给读者提供了一个很好的入门指南。持续创作20篇博客是一项了不起的成就，您的坚持和努力值得赞赏。接下来，我想提供一个谦虚的创作建议。鉴于您在Python领域的深入了解，您可以考虑进一步扩展您的创作范围。或许可以选择一些特定的Python库或框架，深入研究并撰写相关的指南或教程，帮助读者更好地使用这些工具。这样的创作将进一步展示您的专业知识，并为读者提供更具实用性的内容。再次祝贺您达到这个里程碑，并期待您未来更多精彩的博客！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply20 看奖励名单。
Django环境搭建
CSDN-Ada助手: 推荐 Python入门技能树：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。