什么是大数据?

一、大数据的简概念

顾名思义,大数据就是 概念大而复杂的数据集 传统的手段无法处理(存储|计算)

数据单位:
	1 Byte =8 bit
	1 KB = 1,024 Bytes = 8192 bit
	1 MB = 1,024 KB = 1,048,576 Bytes(普通用户数据级别)  文本
	1 GB = 1,024 MB = 1,048,576 KB  
	1 TB = 1,024 GB = 1,048,576 MB
	1 PB = 1,024 TB = 1,048,576 GB(企业级数据级别)
	1 EB = 1,024 PB = 1,048,576 TB
	1 ZB = 1,024 EB = 1,048,576 PB(全球数据总量级别)
	1 YB = 1,024 ZB = 1,048,576 EB
	1 BB = 1,024 YB = 1,048,576 ZB
	1 NB = 1,024 BB = 1,048,576 YB
	1 DB = 1,024 NB = 1,048,576 BB

二、大数据的特点:

	容量大:
		数据量大    现在的数据产生快  数据类型复杂(视频)
	种类多:
		结构   半结构   非结构化
	速度快:
		随时随地都在产生数据
		互联网没有秘密
	价值高:
		整体价值高  单条数据价值低
		价值密度低
	真实性

三、大数据的价值

用户画像   根据用户的所有的商业行为 给用户打的标签
用户网络商业活动  消费习惯   搜索关注点   人际关系
人物的标签图
精准营销    千人千面

四、大数据中的几个核心概念

1. 集群

一个任务(存储|计算)需要多个服务器(节点  网络不同)共同完成,这多个服务器组成的一个集体,叫做集群
集群中的每一个服务器 就叫做一个节点

2. 分布式

一个任务需要多个节点共同完成  这个任务的执行方式就是分布式的

2.1 分布式存储

分布式文件系统
	一个大的文件  被切分成分多个小文件  每一个小文件被存储在一个节点上  最终这个大文件被存储在了多个节点上

2.2 分布式数据库

一个大表  被切分成多个小表  存储在多个节点上

2.3 分布式计算

一个计算任务很大  一个节点计算不了  将这个计算任务进行拆分  分别运行在不同的节点上进行计算

3. 负载均衡

一个集群中 各个节点承担的压力(存储)相当
一个集群 5个节点
存储任务 10T
每一个节点 2T 一定负载均衡吗?
负载均衡一定和每一个节点的硬件配置相关
集群中的每一个节点存储的数据量的占比相当的

情况1:
5个节点硬件配置一样    每个节点2T   负载均衡的

情况2:
3台:
128G    4T 
2台:
256G    8T 

1:1:1:2:2
 前3台   10T /7  
 后两台   20T /7
 
前3台:
	每一个节点  2T     50%
后2台:
	每一台  2T     25%   不均衡
	每一台  4T    50%   负载均衡

五、数据的处理流程

	数据采集----数据存储----数据清洗(ETL)---数据计算---数据存储结果-----web可视化展示

1. 数据采集(数据来源)

1.1 业务数据 自己的数据

自己的业务数据库  自己网站产生的日志

1.2 爬虫

反爬虫 反反爬虫

1.3 数据买卖

个人征信
放贷

2. 数据的处理:

2.1 缺失字段的数据

1)不影响最终分析结果   删除
	网站浏览日志数据
2)对于一些和金钱相关的数据
	通过各种计算   补充上  要精准  
3)要求精密的数据
	工业大数据
	传感器数据
	炼钢   温度   根据经验值补充

2.2 敏感数据

手机号  身份证号
脱敏处理
将敏感字段进行加密  MD5  uuid
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值