开发细节与风险控制
开发细节当中即伴随着各种各样的风险,并要即时反馈和处理风险,如工作量评估、技术难度评估、人员变更、需求变更等等,故我们将两者放在一起,不可拆分。
一. 开发细节
主要有九部分:
- 确定数据源文件集合
- 将源数据装载到hive仓库
- 编写udf分词
- 生成分词结果表
- 生成wordcount倒排表,按词频降序排列
- 将hive表推送到MySQL表
- 前端展示,搭建spring boot项目
- 前端加入echarts绘图插件
- 前端界面生成
- 集成前端页面
1.1 确定数据文件集合
-
确定数据集
-
-
基于项目需求,选择公开数据集即可。
-
- 搜狗搜验室-http://www.sogou.com/labs/
- 多领域公开数据集-http://blog.csdn.net/marleylee/article/details/76587354
- 国外的公开数据集-https://site.douban.com/146782/widget/notes/15524697/note/519440833/
- 自行积累的公共数据集-https://mp.weixin.qq.com/s/8whZsvERs6zlUeYT677YyA
-
-
-
洞查数据本身
- 将数据传输到hadoop客户端机器中,为数据传输到hive仓库做准备
- 总大小
-
-
掌握计算方法
-
准确计算法:看到全部数据后,通过命令求实际大小。
-
评估计算法:通过对部分数据做精细化计算,然后推导到全局数据(解压一个看看压缩比)
ls | wc -l 是看一行有多少,看文件夹下多少文件 du -sh *|sort排序 du -sh *|sort | tail -1最大 du -sh *|sort | head -
-