第一节课 (2022年8月29日)
目录
密度聚类K-means百度一下
一.课堂互动:量化方法描述数据
(一)大数据应用场景问题讨论
1.学生在校一天可能产生哪些数据? 学生会产生哪些数据?拍卡数、金额、学生ID
2.学校监控系统每天产生的数据量?
已知信息描述:500个教室,每个教室有2个监控;一天有多少数据量?计算机如何判断上课时间
计算数据量:RGB颜色分辨率、假设一个像素为4Bytes,每秒产生24帧的画面,每个画面的像素为800*600个像素、T透明度、
每秒产生的数据量=(800×600)像素 × 4 Bytes × 24帧
每天时产生的数据量=(4608×)GB ×(3600×24)s=3981.312GB
/*注释:单位换算1024按照约等于1000,1024是理想状态下的存储概念*/
每天产生的数据量 | 每/h产生的数据量 | 每/min产生的数据量 | 每秒产生的数据量 | 单位 |
4608×××24 | 4608×× | 4608××60 | 4608× | Byte |
4608× | KB | |||
4608× | MB | |||
3981.312 | 4680× | GB |
3.数据存储,压缩最大程度 可以达到多少?
4.矩阵压缩,矩阵和向量可互逆的过程(线性代数--矩阵)
= ,如果压缩率为;
矩阵<---->向量,可互逆的过程
m*n的矩阵,一个800*600的矩形
(二).DIKW模型
智慧Wisdom,知识Knowledge,信息information,数据Data
(三 )大数据与生活
1.开学季,云南省人流高峰期,不同时间段的人流量统计,可对高铁排班做决策性的分析
2.图类社区:
- 什么叫做交互式大数据?人在结果中搜索结果。譬如,在图书馆查询大数据相关的书籍,首先输入搜索关键字,得到分类结果,假设有500条大数据相关的图书信息,那么有人进行决策,选择自己想查找的书,过程中有人的参与,我们把这个过程叫做交互式的大数据。
- 信息战争,网络舆情,人的社会关系分组,比如疫情防控,是如何做到时空交集分析的判断,假设要找出哪些人与一个带有新冠肺炎的人有时空交集,首先对这个人进行编号,对他的GPS轨迹分布图做统计,圈出他在不同时间活动的范围,然后对该范围内的人按照距离的远近作分类;
3.应用实例
- 交互式分析,品牌营销调研:调研手机品牌20,月份12,城市100,门店20,手机型号;
- hive和spark用来解决分析交互式应用场景
- 导航、APP、流式计算 :服务于----用户(快速查询、准确获取)
- 百度地图:路网-->地图(图层分级,如热力图,一级为红色,二级为橙色;地图是怎样获取到的,如何使路网更精确);PUI分布-->商业分布兴趣点(如网状地图上出现一家炸鸡店的位置,炸鸡店给平台付了入驻费用);土地利用数据-->湖泊、草地、树、房(测绘、时空地理信息);
4.应用实例
(1)#大数据解决的实际问题:约束条件“车祸判断”高速路多发危险路段,车的GPS数据,判断车祸堵车
变量 | 情况判断 |
车流 | 只有个别几辆车不移动,旁边的车都有在移动 |
车道 | 其他车在移动 |
速度 | 经过此区域的车速度都很慢,过了就恢复正常速度 |
#移动运营商的基站分布,用户使用多的地方可以多增加几个基站,加强信号接收;
#充电桩,如何做到全局最优;成本控制;充电站发布空闲信息;
(2)聚类、分类问题----最常见的二分类问题、多分类问题、
(3)机器学习、数据挖掘
(4)大数据模型提取(大数据依据小模型得到决策)、随机森林决策树
x=a+b
y=++b
y=model(,,...,)
二.HDFS分布式存储系统:(考点)
mapreduce编程模型10分
试卷结构: 填空题(10题10分)/选择题(20题20分)/简答(5题40分)/论述(1题10分)/计算(2题20分)
三.课后实验作业:
win10虚拟化中间键,Windows10装Linux,Centos7.6
VMware Workstation Player - VMware Customer Connect
了解并熟悉VMware Workstation,熟悉Linux不同发行版本
VMware Workstation_百度百科 (baidu.com)
【首选】win10虚拟机VMware产品安装和使用教程 - 知乎 (zhihu.com)
第二节课 (2022年8月30日星期二)