【大数据处理技术】课堂笔记19.11.05

课程目标:
自己搭Hadoop平台,用python写spark

什么是大数据?
海量数据本身+处理方法
数据太多存不下,运行的时候会卡死
物联网IOT
电子标签RFID,分有源无源的
有源的就可以进行通讯然后就可以自动扣费
还可记录下来通过某个收费站的车数,做交通流量的估散,粗略刻画一辆车的轨迹
南京在主要路口,还有重庆也是,记录路况,然后为交通调动提供服务
高德地图实时路况怎么来的
找一些车,装上GPS实时发送路况情况,这种叫做浮标车,比如公交和出租车,
地感线圈可以产生计数数据,感受到有车或者有人来了,他就来识别一下得到数据
很多路口的摄像头,实时交通图像视频数据,通过人工智能技术可以数出来这个图里多少个车,每五分钟数一次
铁路系统每一个车厢装一个RFID在统计的位置竖一个天线,当她经过的时候我就记录下来了
无源电子标签
应用范围更广,更贵,没有大范围使用

最优秀的关系型数据库是甲骨文
ioe组合:IBM小型计算机+甲骨文的数据库+emc公司的光纤存储
百亿千亿数据的时候一句sql来select要用5分钟,不能忍

两个星期公交地铁的数据,几千万条
对人群做画像,大概几点钟上车,几点下车

数据量增加,数据结构日趋复杂
非结构化数据和半结构化数据
大数据的4V特征
volume体量大:绝对存量大,数据增量大
variety多样化:来源多
velocity速度快:
value价值密度低:

grid网格数据
QINGCLOUD
基于MapReduce的一个计算引擎
实时计算的一个平台

大数据搞得比较好的
亚马逊,microsoft,Google,oracle,IBM
hadoop是一个计算平台
还需要其他工具支撑
可视化

作业:
KETTLE是个优秀的ETL工具
把什么装到数据库里
建两个excel文件,把两个拼起来,写到第三个表里?
????
大数据技术
数据采集:ETL工具
数据存取:关系数据库,nosql,sql等
基础架构支持:云存储,分布式文件系统
计算结果展现:云计算,标签云,关系图
存储
结构化数据
非结构化数据:
半结构化数据:转化为结构化数据,或者用XML存储半结构化数据,json也可
解决方案
hadoop(MapReduce技术)
流计算(Twitter的storm和Yahoo)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值