- 博客(12)
- 资源 (8)
- 收藏
- 关注
原创 今日头条新闻爬取+storm流处理存储(3)——storm流处理部分
项目简介本项目整体分为三个部分来进行今日头条新闻爬取将爬取下来的新闻正文部分进行实体分析,并将结果可视化用storm框架将爬取的新闻数据存入mysql本文主要介绍今日头条新闻爬取的部分,下面给出整个项目的框架流处理部分下面主要介绍一下流处理这部分主要的工作以及主要编写的类,及各类的主要作用,具体还可以结合上面的数据处理框架来看。数据处理流程数据源将生成的数据输入到kafk...
2020-01-04 19:00:12
780
原创 今日头条新闻爬取+storm流处理存储(2)——实体分析部分
项目简介本项目整体分为三个部分来进行今日头条新闻爬取将爬取下来的新闻正文部分进行实体分析,并将结果可视化用storm框架将爬取的新闻数据存入mysql本文主要介绍今日头条新闻爬取的部分,下面给出整个项目的框架代码介绍整个实体分析模块分成了四个类,主要分为事件的挖掘模块,使用LTP进行语义分析,实体提取的模块,使用textrank图算法来构建关键词以及实体的通联关系的模块,最后有...
2020-01-04 09:57:34
966
原创 今日头条新闻爬取+storm流处理存储(1)——爬取部分
项目简介本项目整体分为三个部分来进行今日头条新闻爬取将爬取下来的新闻正文部分进行实体分析,并将结果可视化用storm框架将爬取的新闻数据存入mysql本文主要介绍今日头条新闻爬取的部分,下面给出整个项目的框架代码介绍...
2020-01-04 09:15:47
1635
原创 模拟购物数据实时流处理(4)——实时数据大屏
项目介绍本项目总体分为平台搭建模拟数据源生成实时流数据处理实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作,本文主要介绍最后一个部分,实时数据大屏。前面的几篇文章已经将平台的搭建,数据模拟生成,流数据处理部分做了详细的介绍,这篇文章主要是对前面所做的工作进行一个升华,关分析出数据不够直观,而能将所做的东西更加直观的表达出来就需要进行可视化了,下面我将为大家介绍可视化...
2020-01-02 15:54:34
1297
1
原创 模拟购物数据实时流处理(3)——实时流数据处理
项目介绍本项目总体分为平台搭建模拟数据源生成实时流数据处理实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作,本文主要介绍实时流数据处理的部分,下面给出整个项目数据生成和处理部分的框架环境介绍终于到了整个项目的重头戏部分了,这部分是使用storm的trident高级事务来进行流处理,这部分主要使用java来进行编写,使用的平台为idea,对于idea使用不是很清楚...
2020-01-02 14:25:10
842
原创 模拟购物数据实时流处理(2)——模拟数据源
项目介绍本项目总体分为平台搭建模拟数据源生成实时流数据处理实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作,本文主要介绍模拟数据源生成的部分,下面给出整个项目数据生成和处理部分的框架环境介绍在数据生成部分,主要使用python语言来完成,为什么不用java,是因为我感觉java在这个方面使用起来完全不如python简单直观,下面给出一些配置python3.6...
2020-01-02 11:00:07
941
原创 模拟购物数据实时流处理(1)——平台搭建
项目介绍本项目总体分为平台搭建,模拟数据源生成,实时流数据处理,以及最后的实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作。本文主要介绍平台搭建的部分配置虚拟机本项目主要用到的是本地的虚拟机——centos7,所以第一件事情就是搭建本地的虚拟机集群的环境,这里对搭建的过程不再做详细的介绍,主要是需要将几台虚拟机配成一个局域网,使得各虚拟机之间可以相互ping通,同时主机需要能够...
2020-01-02 07:51:32
691
原创 Spark-SQL实验
目的通过实验掌握Spark SQL的基本编程方法熟悉RDD到DataFrame的转化方法熟悉利用Spark SQL管理来自不同数据源的数据平台hadoop2.8.5spark2.3.4Mysql数据库内容任务一:Spark SQL基本操作数据:employee.json格式:{ "id":1 ,"name":" Ella","age":36 }{ "id":2,"...
2019-12-07 08:16:02
2205
原创 RDD编程初级进阶
前言这里基于前面做过的RDD初级程序,以及后来搭建的本机的运行spark的环境,进行下面代码的编写任务一任务描述:在推荐领域有一个著名的开放测试集,下载链接是:http://grouplens.org/datasets/movielens/,该测试集包含三个文件,分别是ratings.dat、sers.dat、movies.dat,具体介绍可阅读:README.txt。请编程实现:通过连接r...
2019-11-09 09:58:34
1689
3
原创 使用IDEA进行RDD编程+scala打包运行
前言本篇文章结合上一篇文章的spark-shell编程的基础,进行了如下工作将scala的shell中的命令整合成一个完整的.scala格式的文件使用IDEA将程序打包上传后执行配置IDEA连接hadoop和spark,直接在本地上运行.scala文件安装IDEA一、本机下载安装scala1.说明这一步可以跳过,因为在后面可以直接在IDEA中安装scala,但是由于在线安装时间...
2019-11-08 21:39:34
2718
5
原创 RDD初级编程
RDD初级编程我们的数据集为Data01.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80打开spark-shell这里我们使用spark-shell连接上yarn...
2019-11-02 10:22:09
3209
3
径向基神经网络.rar
2020-01-03
今日头条爬取+实体分析+storm流处理.rar
2020-01-09
购物数据流处理+可视化实时数据大屏.rar
2020-01-02
反向传播算法.rar
2019-12-07
基于Forsquare用户的多平台账户关联.rar
2020-03-10
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅