史上最全虎扑爬虫，带你看网络爬虫下的步行街

最新推荐文章于 2023-11-07 21:25:47 发布

置顶 sinat_22767969

最新推荐文章于 2023-11-07 21:25:47 发布

阅读量3.8k

点赞数 7

分类专栏：我的JAVA学习笔记文章标签：虎扑爬虫 java爬虫 java虎扑爬虫

本文链接：https://blog.csdn.net/sinat_22767969/article/details/83096619

版权

我的JAVA学习笔记专栏收录该内容

28 篇文章 1 订阅

订阅专栏

前言

本项目由 https://blog.csdn.net/sinat_22767969/article/details/82953774 而来，之前爬过各大高校的百度贴吧，本人也是位小jr，想着玩玩虎扑步行街吧嘿嘿~这次的数据是国庆的时候爬下来的，介于工作太忙没有写帖子，数据截止时间大致在2018年10月6日，也就是说这个时间点以后的帖子和用户不会出现在下面的统计中。

本文作者：陈超允；转载请注明出处

项目

项目为springboot 1.5.7版本，提供数据持久化，前端采用echart做数据分析图表展示。具体的技术栈如下：

springboot 1.5.7
springMVC+Rest+EChart...
mybatis 3.4.6
hikari 连接池
webmagic 0.7.3（修改版，修复https问题与log优化下载地址：https://download.csdn.net/download/sinat_22767969/10703880）
mysql 5.7.17 （支持utf8mb4字符编码）

GitHub：https://github.com/chenchaoyun0/hpspider，觉得有用给个start哈~

快速启动

（1）克隆项目

git clone https://github.com/chenchaoyun0/hpspider.git

（2）修改数据库连接配置，执行DB初始化脚本，maven构建项目

mvn clean install -DskipTests

（3）启动爬虫

启动项目，访问 http://127.0.0.1:5099/swagger-ui.html ，执行 startSpider （注：若数据库中已有数据必须清空）

（4）配置

#爬取线程
spider.thread=${SPIDER_THREAD:80}
spider.run.async=${SPIDER_RUN_ASYNC:true}
#此配置可理解为要爬多少个帖子,虎扑只能访问到10200页，有时候不一定，
spider.post.size=${SPIDER_POST_SIZE:10200}
#爬取数据落库配置
#thread max size
perform.thread.pool.size=5
#queue max size
perform.queue.size=1000

虎扑爬虫数据分析

爬取过程

待程序执行一段时间后，如果你spider.post.size配的太大，则爬取的时间会很长

博主爬的时候配的是10200，放在服务器上面跑，开启爬虫500个线程，落库线程500，爬了有3天~~

帖子总数：120.7万，回复总数：1504.9万，JR（用户）总数：141.9万，下面的数据分析就是用的这些数据进行处理，帖子回复数点亮小于1就忽略掉了。

部分数据截图

数据分析

访问 http://127.0.0.1:5099 即可看到一个导航页面

下面做下比较有趣的数据分析与图形化展示

帖子标题的热点词汇

看看大家发帖经常使用的词汇，水平、zt（到底是主题？还是转帖？）、求助、女朋友哈哈，

Jrs所在地分布柱形图

广东的JR是最多的哈~~~其次是北京，再看看女JR的情况

emmm，这里比较懒，没有做排序，当然，还是广东女JR最多了

男女比例分布

同样，性别未知的就是不填性别的，有一半多，再看一张图

实在是可怜~~~~不愧被称为直男一条街咳咳

年发帖量

当前，这里的2018年还没有过完，只是统计到2018年10月国庆期间

年里的月发帖量

通过此图可以看出，JRS在8月份的时候，热情高涨hhh

时发帖量

JR在晚上10点的时候发帖最频繁

时回复量

JRS在中午11点最活跃哈？

NBA主队分布

其中有百分之82的人没有填自己的归属主队，再看一张图把未知的去掉后

看图说话~

JR等级分布

2016年度的十大热帖

2017年度的十大热帖

原来大部分JR都想当程序员？？？emmm

2018年度的十大热帖

哈哈，2018年的热帖里，wyf 出现的也太多了吧

历史来十大热帖

历史来是指，2016~2018的，2015的数据比较少，也比较久远，爬不到了

2018年度点亮前十的回复

skr skr~~

粉丝最多的10大JR

张佳玮先生~~我什么时候能拥有你一半的粉丝。。。

粉丝最多的女JR

访问量前十的Jrs

emmm，这位大哥，竟然有快2亿的访问量。。。。可怕~~

访问量前十的女Jrs，看看哪位女jr

社区声望排行

JR设备分布比例

安卓用户和苹果用户不分上下哈~~

jrs加入时间分布曲线图

2015年是最巅峰的时期啊~~

十大发帖量最多的JR

帖子回复的词云

绿化一条街，竟然没"绿"字~~~我检查下我的程序。。。。发现真的没有，JR们都喜欢发图吧 ~

JR昵称词云

爱字~~~~看来JRS跟我一样，为情所困，不知道到底选哪个女朋友好，愁死个人了~~~tx

over！！好累的说！欢迎步行街的猿儿JR给个start

本项目gitHub地址：https://github.com/chenchaoyun0/hpspider

博主邮箱：873692191@qq.com，欢迎JR骚扰与探讨各种奇淫技巧~~

PS：我是一只Java猿儿

sinat_22767969

关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
4
评论
史上最全虎扑爬虫，带你看网络爬虫下的步行街

前言本项目由https://blog.csdn.net/sinat_22767969/article/details/82953774而来，之前爬过各大高校的百度贴吧，本人也是位小jr，想着玩玩虎扑步行街吧嘿嘿~这次的数据是国庆的时候爬下来的，介于工作太忙没有写帖子，数据截止时间大致在2018年10月6日，也就是说这个时间点以后的帖子和用户不会出现在下面的统计中。本文作者：陈超允...
复制链接

扫一扫