海量数据的生成
海量数据的收集
数据导入与清洗
分布式下可以上传数据集到HDFS使用MR进行处理,单机可以使用kettle进行清洗。
kettle整合Hadoop
(1)修改配置文件:复制Hadoop的配置文件core-site.xml和hdfs-site.xml到kettle的插件目录下(如图4.13),覆盖掉原有的同名配置文件。
(2)创建Hadoop cluster并测试是否创建成功。
(3)创建转换,配置Hadoop file input
(4)去空、去重、存储
(5)结果
数据分析
略
数据可视化
Echarts
●步骤1:引入echarts.js文件
●步骤2: 准备一个呈现图表的盒子
●步骤3: 初始化echarts实例对象
●步骤4:准备配置项(关键在这步)
●步骤5:将配置项设置给echarts实例对象
详细步骤:
配置项官方使用手册:https://echarts.apache.org/zh/option.html#title
Flask
是什么
轻量级的小框架,由于小,开源的插件多,所以灵活。
做什么
核心两部分:路由转发和模板渲染。
怎么做
两步:
1.写好页面或者找模板更具需求增删
2.定义好路由,把做好的html页面返回给用户
他做的的直接把原链接爬过来了,可以跳转过去。
在查库页面展示所有库信息效率低 可以做分页
流程图
待学习
动态排序柱状图(可燃物了是)
地图可视化
bootstrap jquery
数据库分页展示