大数据介绍

1. 大数据的概念

大数据的概念: 数据的观察 实验的结果

2. 数据分类

1. 结构化数据
	二维表
2. 半结构化数据
	 html,xml,js,css,property
3. 非结构化数据
	视频,音频,图片

3. 大数据特点

	海量数据
	特点:5v
	1. 数据量大	
		Byte KB MB GB TB PB EB ZB YB BB NB DB
	 2. 数据种类多
	 		1. 文本
			2. 图片
			3. 音频
			4. 视频		 
	 3. 数据产生速度快
	 		网络
	 4. 数据价值密度低
	 		整体价值高 数据集市
	 5. 数据真实性
	 		数据一定要保证真实性

4. 大数据的价值

	大数据杀熟 用户画像  商业 用户消费行为习惯
	预测  指导生产

在这里插入图片描述

5. 数据来源

1. 业务数据:就是指在App或者网站上面的各种购买下单支付注册等这些关键信息的数据,保存到业务系统中(mysql)。
2. 爬虫数据
3. 日志数据(事件数据):用户浏览网站的时候进行各种的点击,浏览,评论,点赞等事件行为产生的日志数据,也叫用户行为日志。
4. 第三方数据(日志数据):类似于合作公司的数据,相当于把数据接口到合作公司,通过合作公司提供的第三方数据,同时也可以通过一些公共网站爬取数据(外部数据)

6. 大数据中的几个核心概念:

1. 集群:一个任务被分配到多个计算机上,执行多个主机组成成一个群体 集群
	集群中的每一个主机  节点
2. 分布式:
		分布式存储	
			一个大存储任务  需要多个节点共同存储
			 每个节点负责部分存储任务  将这个存储	分布式存储
		分布式计算
			一个大的计算任务  需要多个节点共同配合完成
			每个节点分配部分计算任务  分布式计算
		分而治之
3. 负载均衡:
		从数据存储上
				分布式存储中	每个节点存储的数据量 占比相当
				集群		3个节点
				2T           1.3T      65% 	1T  		50%
				4T			1.3T		37% 	2T		50%
				2T			1.3T		65%		1T		50%
				不存在		绝对的负载均衡的
				负载均衡和硬件相关的
4. 集群的扩展能力:
		存储和计算一个文件	随着数据量的增加
		原来的集群承担不起来
		方向
		1. 纵向扩展:
		    在一个服务器节点上增加性能
			原始服务器: 内存	32G 磁盘		4T
			纵向扩展完成后   内存	64G    磁盘	8T
			每一个服务器的性能承载(有上限的)
			摩尔定律:
					18--24月	硬件更新升一倍
			数据的产生速度	远远大于	硬件提升速度的
		2. 横向扩展:
				在机器的节点个数上扩展
				理论上  横向扩展 没有上限的
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

(YSY_YSY)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值