基于亿级微博数据的数据仓库的构建和热词挖掘

第一个阶段:项目需求分析
1、项目需求是什么:即这个项目是做什么事,为什么做,从业务角度分析解释如何做,并且产出prd(Product Requirement Document)文档,明确阶段目标(里程碑)和验收标准(干成什么样子算是ok),风险控制与构成管理,
2、项目需求的任务:产出prd文档(对该项目进行详细的说明)
3、项目需求的作用:准确勾勒和描绘用户的问题,便于需求方、用户、开发者三方沟通交流,开发人员工作的基础和依据,确认测试和验收的依据,产品和开发相互确定完成情况的依据
4、项目需求的评估方法:是否有价值,是否有可执行性,是否能解决项目的立项需求,人员与进度安排是否合适,验收标准是否合理
5、本项目的需求说明书:
做什么事情:给定一批微博博文数据,构建到hive数据仓库中,挖掘出数据的热点关键词,并能在web页面中显示。
为什么要做:迅速捕捉社交网络内热词,可以作为新闻素材、视频推荐、商品推荐等依据。
从业务逻辑角度,讲清楚要如何做(微观细节说明,产出prd文档,即Product Requirement Document)
给定具有时间连续性的微博文章不低于100万条即可,实际给出2.2亿条。(csv格式)
将文本文件导入到hive的指定微博内容表中。
通过nlp分词处理,将一条一条的博文拆解成一个一个的词序列(Term Sequene)。
对词序列中的全部元素做词频统计(Term Frequence Statistic)
对词统统计结果做倒排输出,得到舆情热词
将数据推送到mysql指定数据表中
搭建java web项目,在前端页面中调用后端的数据接口,将数据返回到前端中。
在前端调用绘图插件,将舆情热词用比较炫的方式显示出来。
明确阶段目标(里程碑)和验收标准(干成什么样子算ok)
风险控制与过程管理

第二个阶段:需求分析
1、需求分析是什么
标准定义:
把软件计划期间建立的软件可行性分析求精和细化,分析各种可能的解法,并且分配给各个软件元素。
是软件定义阶段中的最后一步,是确定系统必须完成哪些工作,也就是对目标系统提出完整、准确、清晰、具体的要求。
简化定义:
根据PRD文档,从技术层面,去分析项目的模块组成、技术实现、风险控制与过程管理
2、需求分析的任务
概述
确定对系统的综合要求 。分析系统的数据要求,导出系统的逻辑模型,修正系统的开发计划
步骤划分:
1)需求提出:项目需求方(产品经理/相关领导)与项目研发团队(往往是项目经理),集中描述系统的目的,把目的描述清楚准确,作为需求方和研发方的合同。
2)需求描述:目标是对需求方的需求进行鉴别、综合和建模,清除用户需求的模糊性、歧义性和不一致性,分析系统的数据要求,为原始问题及目标软件建立逻辑模型。
分析人员要将对原始问题的理解与软件开发经验结合起来,以便发现哪些要求是由于需求方的片面性或短期行为所导致的不合理要求,哪些是用户尚未提出但具有真正价值的潜在需求。
标准文档举例:https://wenku.baidu.com/view/2f07d53b580102020740be1e650e52ea5518ce8f.html?from=search
3)需求评估:需求分析师要在用户和软件设计人员的配合下,对自己生成的需求规格说明和初步的用户手册进行复核,以确保软件需求的完整、准确、清晰、具体,并使用户和软件设计人员对需求规格说明和初步的用户手册的理解达成一致。
发现问题,及时复查和确定。

需求分析的作用:
1)将技术可行性、技术实现难点、工作量、人员分配统筹分析和安排。
2)为项目研发周期评估和人员按排提供依据
3)极大的降低项目失败风险

需求分析的评估方法:
1)是否准确描述清楚需求方的需求
2)是否能依据它来评估系统风险、技术难度、研发工期

本项目的需求分析书:

在这里插入图片描述

第三个阶段:技术方案与开发计划
1、技术方案:
在这里插入图片描述

2、开发计划:详细的,精准到每个模块的精准到天的计划完成计划书。

第四个阶段:开发细节与风险控制
1、开发细节:共分为9个模块
1.1:确定源数据文件集合
步骤拆分:

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值