史上最全虎扑爬虫,带你看网络爬虫下的步行街

 

前言

本项目由 https://blog.csdn.net/sinat_22767969/article/details/82953774 而来,之前爬过各大高校的百度贴吧,本人也是位小jr,想着玩玩虎扑步行街吧嘿嘿~这次的数据是国庆的时候爬下来的,介于工作太忙没有写帖子,数据截止时间大致在2018年10月6日,也就是说这个时间点以后的帖子和用户不会出现在下面的统计中。

本文作者:陈超允;转载请注明出处

项目

项目为springboot 1.5.7版本,提供数据持久化,前端采用echart做数据分析图表展示。具体的技术栈如下:

GitHub:https://github.com/chenchaoyun0/hpspider,觉得有用给个start哈~

快速启动

(1)克隆项目

git clone https://github.com/chenchaoyun0/hpspider.git

(2)修改数据库连接配置,执行DB初始化脚本,maven构建项目

mvn clean install -DskipTests

(3)启动爬虫

启动项目,访问 http://127.0.0.1:5099/swagger-ui.html ,执行 startSpider (注:若数据库中已有数据必须清空)

(4)配置

#爬取线程
spider.thread=${SPIDER_THREAD:80}
spider.run.async=${SPIDER_RUN_ASYNC:true}
#此配置可理解为要爬多少个帖子,虎扑只能访问到10200页,有时候不一定,
spider.post.size=${SPIDER_POST_SIZE:10200}
#爬取数据落库配置
#thread max size
perform.thread.pool.size=5
#queue max size
perform.queue.size=1000

虎扑爬虫数据分析

爬取过程

待程序执行一段时间后,如果你spider.post.size配的太大,则爬取的时间会很长

博主爬的时候配的是10200,放在服务器上面跑,开启爬虫500个线程,落库线程500,爬了有3天~~

帖子总数:120.7万,回复总数:1504.9万,JR(用户)总数:141.9万,下面的数据分析就是用的这些数据进行处理,帖子回复数点亮小于1就忽略掉了。

部分数据截图

 

数据分析

访问 http://127.0.0.1:5099 即可看到一个导航页面

下面做下比较有趣的数据分析与图形化展示

看看大家发帖经常使用的词汇,水平、zt(到底是主题?还是转帖?)、求助、女朋友哈哈,

广东的JR是最多的哈~~~其次是北京,再看看女JR的情况

emmm,这里比较懒,没有做排序,当然,还是广东女JR最多了

同样,性别未知的就是不填性别的,有一半多,再看一张图

实在是可怜~~~~不愧被称为直男一条街咳咳

当前,这里的2018年还没有过完,只是统计到2018年10月国庆期间

通过此图可以看出,JRS在8月份的时候,热情高涨hhh

JR在晚上10点的时候发帖最频繁

JRS在中午11点最活跃哈?

其中有百分之82的人没有填自己的归属主队,再看一张图把未知的去掉后

看图说话~

  •  

原来大部分JR都想当程序员???emmm

哈哈,2018年的热帖里,wyf 出现的也太多了吧

历史来是指,2016~2018的,2015的数据比较少,也比较久远,爬不到了

skr  skr~~

张佳玮先生~~我什么时候能拥有你一半的粉丝。。。

  • 粉丝最多的女JR

 

emmm,这位大哥,竟然有快2亿的访问量。。。。可怕~~

安卓用户和苹果用户不分上下哈~~

2015年是最巅峰的时期啊~~

绿化一条街,竟然没"绿"字~~~我检查下我的程序。。。。发现真的没有,JR们都喜欢发图吧 ~

爱字~~~~看来JRS跟我一样,为情所困,不知道到底选哪个女朋友好,愁死个人了~~~tx

 

 

over!!好累的说!欢迎步行街的猿儿JR给个start

本项目gitHub地址:https://github.com/chenchaoyun0/hpspider

博主邮箱:873692191@qq.com,欢迎JR骚扰与探讨各种奇淫技巧~~

PS:我是一只Java猿儿

  • 7
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值