阶段项目总结

项目背景


        项目属于尚云舆情这个产品里面,尚云舆情是简单的互联网舆论分析平台,通过对互联网的        舆论信息进行采集和分析,可以满足用户对网络舆情的检测和热点的追踪
 

项目价值

        实现了从互联网上采集海量的数据,基于这个海量的数据,以及用户定制的主题,进行数据分析提供了热点发现,数据走势


技术栈


        数据端 :


                离线部分
                        数据仓库的构建
                        离线统计分析
                实时统计分析
                技术栈

                        scala/java
                        maven
                        hadoop
                                hdfs
                                yarn
                        hive
                                hive sql
                                hive udf
                        spark
                                spark core
                                spark sql
                                spark streaming
                        kafka
                        redis
                        hbase
                        mysql
                        spring boot
                        shell编程
                        自然语言处理


        项目的流程


        1. 搭建数据接受服务,提供了接口,供爬虫工程师使用
        2. 接收到数据之后,对数据进行预处理,将结果推送到kafka里
        3. 数据仓库的构建
                3.1 . 通过shell 编写kafka的消费者,将数据处理到源数据落地区
                3.2 . 周期性的装载数据到hive中,构建了小时级的数据仓库
        4. 实时计算
                4.1 通过spark streaming消费到kafka中的实时数据,针对数据计算了微博数据每分钟的uv和pv。(uv和pv的指标,基本上每个数据分析的项目都需要的)

((2条消息) redis 计算uv_The_Boy_le的博客-CSDN博客
        4.2 计算了近一个小时的热词,滑动窗口设置的是5分钟
(扩展其它的指标计算...)
        4.3 将计算结果同步到redis中
        4.4 定期将redis的数据写入hbase,进行数据持久化,供前端展示
项目难点和亮点
                热词的统计,我们用到自然语言处理        分词器:(2条消息) 简单的分词器_The_Boy_le的博客-CSDN博客


                统计用户uv的时候,hyperloglog
                使用到了redis的连接池,把redis提出到partition那一层

不足:

        对rdd和DStream的java操作不熟练,需要多加巩固

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值