开发细节与风险控制

开发细节与风险控制

开发细节当中即伴随着各种各样的风险,并要即时反馈和处理风险,如工作量评估、技术难度评估、人员变更、需求变更等等,故我们将两者放在一起,不可拆分。


一. 开发细节

主要有九部分:

  1. 确定数据源文件集合
  2. 将源数据装载到hive仓库
  3. 编写udf分词
  4. 生成分词结果表
  5. 生成wordcount倒排表,按词频降序排列
  6. 将hive表推送到MySQL表
  7. 前端展示,搭建spring boot项目
  8. 前端加入echarts绘图插件
  9. 前端界面生成
  10. 集成前端页面

1.1 确定数据文件集合

  • 确定数据集

      • 基于项目需求,选择公开数据集即可。

        • 搜狗搜验室-http://www.sogou.com/labs/
        • 多领域公开数据集-http://blog.csdn.net/marleylee/article/details/76587354
        • 国外的公开数据集-https://site.douban.com/146782/widget/notes/15524697/note/519440833/
        • 自行积累的公共数据集-https://mp.weixin.qq.com/s/8whZsvERs6zlUeYT677YyA
  • 洞查数据本身

  1. 将数据传输到hadoop客户端机器中,为数据传输到hive仓库做准备
  2. 总大小
    • 掌握计算方法

    • 准确计算法:看到全部数据后,通过命令求实际大小。

    • 评估计算法:通过对部分数据做精细化计算,然后推导到全局数据(解压一个看看压缩比)

      ls | wc -l  是看一行有多少,看文件夹下多少文件
      du -sh *|sort排序
      du -sh *|sort | tail -1最大
      du -sh *|sort | head -
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值