大数据基础

最新推荐文章于 2024-07-19 17:17:26 发布

小猿编程

最新推荐文章于 2024-07-19 17:17:26 发布

阅读量15

点赞数

文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/little_year/article/details/133325162

版权

1 大数据的概念

什么是大数据
- 大量的数据 -> PB/EB级数据
- 学习的大数据技术就是通过一些技术存储和处理大量的数据
- 数据的存储单位
  - bit 位 1Byte=8bit 最小单位
  - Byte 字节
  - KB 1024
  - MB
  - GB
  - TB
  - PB
  - EB
  - ZB（全球数据）
大数据技术可以解决的问题
- 海量数据的存储 -> hdfs
- 海量数据的计算 -> hive spark flink
- 是一种处理模式：采用非常规软件解决常规软件处理不了的数据
MySQL处理结构化数据（有行有列）
非结构化数据（key-value）：图片，视频，音频
半结构化：一部分结构一部分非结构化
MySQL一般要求数据不超过500万，如果超了就分库分表，否则速度就会变慢甚至计算不出来
硬件迭代没有达到一定程度，大数据就不易被取代；随着社会的发展数据体量会越来越大；大数据为人工智能提供训练数据，人工智能发展越好，大数据发展越好。
大数据最少三台服务器，再少容易出错
IP地址和Mac地址不一样就是两台虚拟机

2 大数据的特点

大 -> 海量的数据 2020年全球数据总量是35ZB
多
- 种类多: 结构化数据(有行有列,类似于excel表格, 二维数据), 半结构化数据, 非结构化数据
- 数据源多: 日志, 埋点采集, 视频, 音频, 文本, 三方获取, …
值 -> 低价值度密度: 数据中提取有价值的数据
速度 -> 产生, 获取, 计算的速度快
信 -> 准确度和可信赖度: 实现数据分析时是要通过有价值的数据(经过处理的数据)进行分析得到结论

3 大数据的应用场景

金融行业 -> 反欺诈模型(喂大量的数据)
互联网行业 -> 计算广告(通过用户的数据推送感兴趣的广告)
推荐系统 -> 通过大量数据训练一些模型,实现推荐功能
学习了大数据,我们需要做的内容主要是数据存储和数据计算

4 大数据开发业务流程

明确分析的目的和思路
※※ 获取(采集)数据 -> sqoop flume
※※ 数据处理 （ETL）-> 提取，清洗(处理缺失值, 异常值, null值)，转换，加载（hive，spark）
※※ 数据分析（统计，建模，挖掘） -> 统计计算, 计算一些指标(订单金额,订单数量)
数据可视化 -> 出一些图表, 报表将计算的结果通过图表形式展示给业务人员
撰写报告 -> 通过计算结果得到一些结论 PPT做汇报

5 大数据工作岗位

离线数仓
- 数仓开发工程师
- 大数据开发工程师
- hadoop工程师
- spark内存计算工程师
实时计算
- 实时计算工程师
- flink工程师
- spark实时
ETL工程师 -> 数据处理 2.5w
数据挖掘->机器学习算法
BI工程师, 报表工程师, 帆软工程师 2.5w

6 计算机组成

硬件系统
- 看得见摸得到
- 鼠标,键盘,显示器,内存条,硬盘,声卡,显卡,…
软件系统
- 看得见摸不着
- 系统软件
  - 操作系统 -> 计算机程序, 管理和控制硬件/软件的资源
    - windows系统个人版企业版闭源收费
    - mac/unix系统闭源收费
    - linux系统开源免费公司服务器使用最多的现在也有个人版
    - 安卓系统基于linux系统开源免费
    - ios系统闭源收费
  - 编译程序 py文件, java文件, sql文件
- 应用软件
  - 程序员开发的是应用软件
  - qq,微信,wps,…
7.大数据思想
分布式：任务分解，职能拆解，每台电脑做不同的事（多个人做不同的事）
出现的问题：单点故障
集群：若干计算机联合起来工作，同一个业务部署到不同服务器上（多个人做同样的事）
Hadoop 组件/技术栈：文件系统，分布式计算，资源管理
- HDFS 文件存储
- YARN 资源管理器
- MapReduce 分布式计算
优点：扩容能力，可靠性，成本低，通用性、简单
HDFS角色
- 主角色：NameNode 对接客户
- 从角色：DataNode 存储
- 主角色辅助角色：SecondaryNameNode 辅助存储
hive组件是工具
hive工具管理数仓，没有存储功能
数仓部署在hdfs
基于hadoop的数仓工具
hadoop解决存储和计算
hive的作用
- 把结构化文件映射成表
- 将sql解析成mr代码，交给MapReduce数据（格式要求键值对）分析
操作过程

读文件
按，切分行数据
取第三个数据，判断是否大于25
取第四个数据，判断是否为上海
count++ 累加

hive映射：文件与表之间的对应关系，hive元数据(存储在MySQL中)metadata

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大数据基础

大数据为人工智能提供训练数据，人工智能发展越好，大数据发展越好。MySQL一般要求数据不超过500万，如果超了就分库分表，否则速度就会变慢甚至计算不出来。集群：若干计算机联合起来工作，同一个业务部署到不同服务器上（多个人做同样的事）分布式：任务分解，职能拆解，每台电脑做不同的事（多个人做不同的事）学习的大数据技术就是通过一些技术存储和处理大量的数据。非结构化数据（key-value）：图片，视频，音频。优点：扩容能力，可靠性，成本低，通用性、简单。hive工具管理数仓，没有存储功能。出现的问题：单点故障。
复制链接

扫一扫

小猿编程 CSDN认证博客专家 CSDN认证企业博客

码龄5年

11: 原创

151万+: 周排名

24万+: 总排名

396: 访问

: 等级

113: 积分

0: 粉丝

0: 获赞

7: 评论

0: 收藏

私信

关注

热门文章

分类专栏

数据建模
数据库 1篇

最新评论

数学建模一
2401_83682816: 图片看不到可以更新一下吗
Linux基础
CSDN-Ada助手: 恭喜您开始博客创作！标题“Linux基础”让我对您的博客产生了浓厚的兴趣。Linux作为一个广受欢迎的操作系统，有着庞大的用户群体，我相信您的博客内容一定会给读者带来很多有价值且实用的知识。在下一步的创作中，或许您可以探索一些更深入的主题，例如Linux系统的高级配置、安全性等方面的内容。相信通过您的努力，您的博客会成为Linux爱好者们喜爱的知识宝库。期待着您更多精彩的博客文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
Linux常用命令
CSDN-Ada助手: 这篇博客对于Linux初学者来说非常有帮助，总结了一些常用的命令，让我们可以更快地熟悉和使用Linux系统。希望作者可以继续分享更多关于Linux的知识，比如文件权限管理、Shell脚本编程等方面的内容，这些都是我们在学习和工作中非常需要的技能。加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
数据库基础
CSDN-Ada助手: 恭喜你写了第四篇博客！数据库基础是一个很重要的主题，你写得非常好。希望你可以继续保持创作的热情，不断提升自己的写作水平。下一步，可以考虑写一些数据库基础知识的实际应用案例，或者深入讨论一些数据库技术的发展趋势。期待你的下一篇博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
MySQL算法案例1
CSDN-Ada助手: 恭喜您写了第8篇博客！标题中的"MySQL算法案例1"听起来非常吸引人。感谢您不断分享有关MySQL算法的案例，这对我来说非常有帮助。作为下一步的建议，如果可能的话，我希望您能够进一步深入分析每个案例中使用的具体算法，并提供更多实际应用的示例。这将使读者更好地理解和应用这些算法。期待您未来更多精彩的创作！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。