![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
storm
文章平均质量分 79
龙之焱影
这个作者很懒,什么都没留下…
展开
-
今日头条新闻爬取+storm流处理存储(3)——storm流处理部分
项目简介本项目整体分为三个部分来进行今日头条新闻爬取将爬取下来的新闻正文部分进行实体分析,并将结果可视化用storm框架将爬取的新闻数据存入mysql本文主要介绍今日头条新闻爬取的部分,下面给出整个项目的框架流处理部分下面主要介绍一下流处理这部分主要的工作以及主要编写的类,及各类的主要作用,具体还可以结合上面的数据处理框架来看。数据处理流程数据源将生成的数据输入到kafk...原创 2020-01-04 19:00:12 · 685 阅读 · 0 评论 -
今日头条新闻爬取+storm流处理存储(2)——实体分析部分
项目简介本项目整体分为三个部分来进行今日头条新闻爬取将爬取下来的新闻正文部分进行实体分析,并将结果可视化用storm框架将爬取的新闻数据存入mysql本文主要介绍今日头条新闻爬取的部分,下面给出整个项目的框架代码介绍整个实体分析模块分成了四个类,主要分为事件的挖掘模块,使用LTP进行语义分析,实体提取的模块,使用textrank图算法来构建关键词以及实体的通联关系的模块,最后有...原创 2020-01-04 09:57:34 · 842 阅读 · 0 评论 -
今日头条新闻爬取+storm流处理存储(1)——爬取部分
项目简介本项目整体分为三个部分来进行今日头条新闻爬取将爬取下来的新闻正文部分进行实体分析,并将结果可视化用storm框架将爬取的新闻数据存入mysql本文主要介绍今日头条新闻爬取的部分,下面给出整个项目的框架代码介绍...原创 2020-01-04 09:15:47 · 1488 阅读 · 0 评论 -
模拟购物数据实时流处理(4)——实时数据大屏
项目介绍本项目总体分为平台搭建模拟数据源生成实时流数据处理实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作,本文主要介绍最后一个部分,实时数据大屏。前面的几篇文章已经将平台的搭建,数据模拟生成,流数据处理部分做了详细的介绍,这篇文章主要是对前面所做的工作进行一个升华,关分析出数据不够直观,而能将所做的东西更加直观的表达出来就需要进行可视化了,下面我将为大家介绍可视化...原创 2020-01-02 15:54:34 · 1205 阅读 · 1 评论 -
模拟购物数据实时流处理(3)——实时流数据处理
项目介绍本项目总体分为平台搭建模拟数据源生成实时流数据处理实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作,本文主要介绍实时流数据处理的部分,下面给出整个项目数据生成和处理部分的框架环境介绍终于到了整个项目的重头戏部分了,这部分是使用storm的trident高级事务来进行流处理,这部分主要使用java来进行编写,使用的平台为idea,对于idea使用不是很清楚...原创 2020-01-02 14:25:10 · 742 阅读 · 0 评论 -
模拟购物数据实时流处理(2)——模拟数据源
项目介绍本项目总体分为平台搭建模拟数据源生成实时流数据处理实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作,本文主要介绍模拟数据源生成的部分,下面给出整个项目数据生成和处理部分的框架环境介绍在数据生成部分,主要使用python语言来完成,为什么不用java,是因为我感觉java在这个方面使用起来完全不如python简单直观,下面给出一些配置python3.6...原创 2020-01-02 11:00:07 · 788 阅读 · 0 评论 -
模拟购物数据实时流处理(1)——平台搭建
项目介绍本项目总体分为平台搭建,模拟数据源生成,实时流数据处理,以及最后的实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作。本文主要介绍平台搭建的部分配置虚拟机本项目主要用到的是本地的虚拟机——centos7,所以第一件事情就是搭建本地的虚拟机集群的环境,这里对搭建的过程不再做详细的介绍,主要是需要将几台虚拟机配成一个局域网,使得各虚拟机之间可以相互ping通,同时主机需要能够...原创 2020-01-02 07:51:32 · 583 阅读 · 0 评论