自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

龙焱的博客

大数据二代

  • 博客(12)
  • 资源 (8)
  • 收藏
  • 关注

原创 好友的主页

次元狭缝这个网站是我同学自己搭建的,里面偶尔会更新一些项目,极偶尔会有一些干货,大家有兴趣可以去看看。次元狭缝主页

2020-01-08 19:22:14 195

原创 今日头条新闻爬取+storm流处理存储(3)——storm流处理部分

项目简介本项目整体分为三个部分来进行今日头条新闻爬取将爬取下来的新闻正文部分进行实体分析,并将结果可视化用storm框架将爬取的新闻数据存入mysql本文主要介绍今日头条新闻爬取的部分,下面给出整个项目的框架流处理部分下面主要介绍一下流处理这部分主要的工作以及主要编写的类,及各类的主要作用,具体还可以结合上面的数据处理框架来看。数据处理流程数据源将生成的数据输入到kafk...

2020-01-04 19:00:12 691

原创 今日头条新闻爬取+storm流处理存储(2)——实体分析部分

项目简介本项目整体分为三个部分来进行今日头条新闻爬取将爬取下来的新闻正文部分进行实体分析,并将结果可视化用storm框架将爬取的新闻数据存入mysql本文主要介绍今日头条新闻爬取的部分,下面给出整个项目的框架代码介绍整个实体分析模块分成了四个类,主要分为事件的挖掘模块,使用LTP进行语义分析,实体提取的模块,使用textrank图算法来构建关键词以及实体的通联关系的模块,最后有...

2020-01-04 09:57:34 844

原创 今日头条新闻爬取+storm流处理存储(1)——爬取部分

项目简介本项目整体分为三个部分来进行今日头条新闻爬取将爬取下来的新闻正文部分进行实体分析,并将结果可视化用storm框架将爬取的新闻数据存入mysql本文主要介绍今日头条新闻爬取的部分,下面给出整个项目的框架代码介绍...

2020-01-04 09:15:47 1492

原创 模拟购物数据实时流处理(4)——实时数据大屏

项目介绍本项目总体分为平台搭建模拟数据源生成实时流数据处理实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作,本文主要介绍最后一个部分,实时数据大屏。前面的几篇文章已经将平台的搭建,数据模拟生成,流数据处理部分做了详细的介绍,这篇文章主要是对前面所做的工作进行一个升华,关分析出数据不够直观,而能将所做的东西更加直观的表达出来就需要进行可视化了,下面我将为大家介绍可视化...

2020-01-02 15:54:34 1210 1

原创 模拟购物数据实时流处理(3)——实时流数据处理

项目介绍本项目总体分为平台搭建模拟数据源生成实时流数据处理实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作,本文主要介绍实时流数据处理的部分,下面给出整个项目数据生成和处理部分的框架环境介绍终于到了整个项目的重头戏部分了,这部分是使用storm的trident高级事务来进行流处理,这部分主要使用java来进行编写,使用的平台为idea,对于idea使用不是很清楚...

2020-01-02 14:25:10 743

原创 模拟购物数据实时流处理(2)——模拟数据源

项目介绍本项目总体分为平台搭建模拟数据源生成实时流数据处理实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作,本文主要介绍模拟数据源生成的部分,下面给出整个项目数据生成和处理部分的框架环境介绍在数据生成部分,主要使用python语言来完成,为什么不用java,是因为我感觉java在这个方面使用起来完全不如python简单直观,下面给出一些配置python3.6...

2020-01-02 11:00:07 800

原创 模拟购物数据实时流处理(1)——平台搭建

项目介绍本项目总体分为平台搭建,模拟数据源生成,实时流数据处理,以及最后的实时数据大屏这几个部分,我将分成几个博客分别介绍这些部分的工作。本文主要介绍平台搭建的部分配置虚拟机本项目主要用到的是本地的虚拟机——centos7,所以第一件事情就是搭建本地的虚拟机集群的环境,这里对搭建的过程不再做详细的介绍,主要是需要将几台虚拟机配成一个局域网,使得各虚拟机之间可以相互ping通,同时主机需要能够...

2020-01-02 07:51:32 588

原创 Spark-SQL实验

目的通过实验掌握Spark SQL的基本编程方法熟悉RDD到DataFrame的转化方法熟悉利用Spark SQL管理来自不同数据源的数据平台hadoop2.8.5spark2.3.4Mysql数据库内容任务一:Spark SQL基本操作数据:employee.json格式:{ "id":1 ,"name":" Ella","age":36 }{ "id":2,"...

2019-12-07 08:16:02 2058

原创 RDD编程初级进阶

前言这里基于前面做过的RDD初级程序,以及后来搭建的本机的运行spark的环境,进行下面代码的编写任务一任务描述:在推荐领域有一个著名的开放测试集,下载链接是:http://grouplens.org/datasets/movielens/,该测试集包含三个文件,分别是ratings.dat、sers.dat、movies.dat,具体介绍可阅读:README.txt。请编程实现:通过连接r...

2019-11-09 09:58:34 1529 1

原创 使用IDEA进行RDD编程+scala打包运行

前言本篇文章结合上一篇文章的spark-shell编程的基础,进行了如下工作将scala的shell中的命令整合成一个完整的.scala格式的文件使用IDEA将程序打包上传后执行配置IDEA连接hadoop和spark,直接在本地上运行.scala文件安装IDEA一、本机下载安装scala1.说明这一步可以跳过,因为在后面可以直接在IDEA中安装scala,但是由于在线安装时间...

2019-11-08 21:39:34 2346 5

原创 RDD初级编程

RDD初级编程我们的数据集为Data01.txt,该数据集包含了某大学计算机系的成绩,数据格式如下所示:Tom,DataBase,80Tom,Algorithm,50Tom,DataStructure,60Jim,DataBase,90Jim,Algorithm,60Jim,DataStructure,80打开spark-shell这里我们使用spark-shell连接上yarn...

2019-11-02 10:22:09 2632 3

搜狗验证码(已标注).rar

资源中含有20000张已经标注好的搜狗验证码,可以用于验证码的识别破解研究,适合作为深度学习的训练集

2020-06-05

微博验证码(已标注).rar

资源中含有20000张已经标注好的微博验证码,可以用于验证码的识别破解研究,适合作为深度学习的训练集

2020-06-05

12306验证码(已标注)

本资源内含12306验证码,已经标注好,内部已经分成训练集,测试集和验证集,可以直接用于深度学习,适合用于卷积神经网络的学习

2020-04-03

基于Forsquare用户的多平台账户关联.rar

本项目实现了通过Forsquare用户信息爬取,实现了对其关联的facebook账号信息,twitter账号信息的爬取,从而实现对多平台账户信息的关联,另外本项目支持断点续爬的功能,停止后可以根据上次的断点继续爬取,最后还包括实现对获取到的信息存入mongdb数据库的功能。

2020-03-10

今日头条爬取+实体分析+storm流处理.rar

本项目主要实现了首先通过python编写的爬虫程序,对今日头条的新闻进行爬取,爬取的内容相对丰富,内容,图片都有爬取,另外,将获取到的新闻进行了实体分析,用textrank图算法计算了关联程度,得到了每篇新闻的一个关键词,高频词,实体对象的力引导图,同时结合大数据流处理的storm技术,在进行实体分析的同时进行了新闻数据的存储,即新闻数据的持久化,整个项目比较有学习价值,欢迎大家下载

2020-01-09

径向基神经网络.rar

本项目主要实现了python端的径向基,通过实现算法本身而不是调用库实现,实现了径向基神经网络对双月数据进行分类,另外里面还进行了包括调整中心个数,学习率的调整方法等对原始程序进行了改进,可以用来进行不同参数下实现的比较

2020-01-03

购物数据流处理+可视化实时数据大屏.rar

整个项目主要实现了从模拟生成购物数据,到通过kafka传输数据,到通过storm的高级事务处理trident来进行实时流数据处理,最后,将实时生成的统计数据进行实时的可视化,生成类似天猫双十一实时数据大屏的可视化效果

2020-01-02

反向传播算法.rar

本项目主要实现了python端的反向传播算法,通过实现算法本身而不是调用库实现,另外里面还进行了包括调整激活函数,学习参数,学习率的调整方法等对原始程序进行了改进,可以用来进行不同参数下实现的比较

2019-12-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除