Hadoop学习笔记和总结(一)

第一章 什么是大数据

1.1 数据与大数据

百度百科中对数据的定义是:数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。

大数据:即海量数据,数据量特别大的数据。

大数据的特点:

(1) 数据量大:能达到TB、PB级别。(1TB = 1024GB,1PB = 1024TB)

(2)数据增长的速度快

(3)数据种类多:文字、图片、视频

(4)数据的价值密度低、整体的价值高

1.2 数据来源

数据来源大概包括两种:

(1)公司自己的业务数据 ,如电商的订单数据、日志数据等。

(2)通过网络爬虫爬取获得的数据

1.3 数据处理

由于获取的数据质量不同,在存储、分析这些数据之前,先要对数据进行处理。常用处理数据的手段如下:

(1)如何处理缺失的数据

不影响业务功能的数据,删除;但与钱相关的数据,不能轻易删除,需要自己补充。

(2)敏感数据

        如:手机号,身份证号、银行卡号等。需通过加密算法进行脱敏处理。常用MD5等。

1.4 数据价值

可用于绘制人物画像:根据用户的综合数据,对用户进行全方位的分析。如:人脉、消费水平、性格等。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值