![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
项目
文章平均质量分 78
坦然之
这个作者很懒,什么都没留下…
展开
-
项目开发流程
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 欢迎使用Markdown编辑器 你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2022-05-09 13:11:24 · 351 阅读 · 0 评论 -
1.海量数据部署与高实时查询项目概述和项目需求分析
需求说明书 1.做什么事情 给定一批微博博文数据,随意输入一个微博博文id, 实时(延时不超300ms)获取该博文id对应的博文明细信息。 2.为什么要做 海量数据场景下,高实时响应单id查询。如身份证号、电话号码、学号等个人信息查询,均适用该场景。 3.业务逻辑(产出prd文档) 3.1.给定具有时间连续性的微博文章不低于100万条即可,实际给出2.2亿条。 3.2.基于2.2亿条博文数据,构...原创 2019-03-13 22:08:17 · 152 阅读 · 0 评论 -
2.海量数据部署与高实时查询需求分析说明书
思路分析图(海量数据索引构建、分发布署、查询过程) 总体思路:大数据转化成小块数据,根据小块建立索引,在搜索时候直接定位到小块数据后进行快速查询。 具体思路: 2.基于2.2亿条博文数据,构建满足条件的索引结构与查询引擎 2.1索引结构与查询引擎其实是一回事,索引定了,查询引擎主要是用已定的索引结构去查询。 2.2输入博文id,拿到博文的详情信息,显然是数据库查询问题 2.3数据库选型分析 承...原创 2019-03-13 22:16:22 · 245 阅读 · 0 评论 -
3.海量数据部署与高实时查询技术方案
原创 2019-03-13 22:19:45 · 492 阅读 · 0 评论 -
Git Linux命令总结
一.本地git操作 1.安装git yum install git 2.配置git git config --global user.name “gudepeng” git config --global user.email "ddddd@qq.com" 3.创建本地git仓库 git init 4.提交文件到缓存区 git add a.txt 5.提交文件到本地库 git commit -m ...原创 2019-03-13 22:51:41 · 103 阅读 · 0 评论 -
微博舆情挖掘需求分析
微博舆情挖掘需求分析 目录 1、项目需求是什么 2、项目需求的任务 3、项目需求的作用 4、项目需求的评估方法 5、本项目需求说明书 详情 1、项目需求是什么 做什么事情( 宏观描述) 为什么要做(讲清楚原因和价值) 从业务逻辑角度,讲清楚要如何做(微观细节说明,产出prd文档,即Product Requirement Document) 明确阶段目标(里程碑)和验收标准(干成什么样子算ok) 风...原创 2019-03-12 19:11:30 · 659 阅读 · 0 评论 -
文本导入hive表中
一.确定数据文件集合 1.来源渠道 自行写网络爬虫采集:研发成本高、不是本职工作 公开数据集:无研发成本,公开数据集质量高,数据量可大可小,按需获取即可。 第三方数据买卖公司:无研发成本,需要付费才能获取。 2.渠道选择 基于项目需求,选择公开数据集即可。 搜狗搜验室-http://www.sogou.com/labs/ 多领域公开数据集-http://blog.csdn.net/marleyle...原创 2019-03-12 19:28:49 · 414 阅读 · 0 评论