利用Scrapy分析某瓣小组帖子信息

Ikarosxx

已于 2023-04-15 20:14:13 修改

阅读量340

点赞数

分类专栏：爬虫文章标签： scrapy 大数据爬虫 python spring boot

于 2023-04-13 10:03:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29656325/article/details/130123420

版权

爬虫专栏收录该内容

2 篇文章 0 订阅

订阅专栏

利用Scrapy分析某瓣小组帖子信息

背景

最近要换房子，于是在逛某瓣租房，由于租房信息错综复杂（中介较多），于是想能不能利用爬虫将数据抓取下来再通过某种方式进行数据清洗/过滤，达到可以自定义筛选和排除中介的目的。

成果

跳转github查看源码

爬虫部分

本文侧重讲爬虫部分，即原始数据的采集
数据来源于某瓣小组租房

爬取思路

找到一个小组讨论贴的第一页
循环爬取下一页
直到爬取到指定时间结束为止（通过判断每一页的最后一条的时间）

爬取实现

思路有了，实现方法大同小异，取决于自己熟悉什么。
我采取的是Scrapy，自己手写request也可以的
由于github已经有源码了，我就省略一些
主要讲讲遇到的一些问题和思路

主体爬取

如思路所言，设定起始页为小组讨论帖的第一页
提取每一行的数据，并判断结束时间，递归下一页继续爬取
注意从这个页面上能获取到的数据不包括帖子的详情，所以在提取每一行数据的时候
如果需要详情，还需要再额外请求这个帖子的地址，再从新页面拿到帖子的内容

拿到数据以后可以存储到数据库
这里我是通过Scrapy的PipLine实现的，其他的可以写sql插入，类似

反爬

正常爬虫绕不开的就是反爬
这里有几个方面可以处理

cookie，使用随机11位bid，这里是根据网上资料的结论处理的

随机UA头
异常重试等机制，针对403和302进行处理
~~Socks5代理~~

这一点是比较重要的
如果不加代理爬取，很快就会触发403和302
~~而且加的必须是Socks5代理，http代理不行（暂不知为啥，可能是防火墙有关系把）~~
我采用的代理是携趣代理，不充钱每天也有免费1000个ip，充钱也足够便宜

总结

跳转github查看源码

爬虫首先要应对的就是反爬，但要注意有风险，还是要降低一些频率
多搜索，网上基本上都有现成的思路或者代码
除了爬虫部分还写了flutter和后端
flutter就是一个demo
后端做的比较简单，就是一些筛选和过滤
过滤规则比较随意（比如超过10个图片判定为中介）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
利用Scrapy分析某瓣小组帖子信息

基于Scrapy爬取某瓣小组信息，并通过flutter和SpringBoot编写前后端逻辑
复制链接

扫一扫

专栏目录

Ikarosxx CSDN认证博客专家 CSDN认证企业博客

码龄9年

17: 原创

33万+: 周排名

21万+: 总排名

3万+: 访问

: 等级

235: 积分

33: 粉丝

55: 获赞

6: 评论

115: 收藏

私信

关注

热门文章

分类专栏

数据库 3篇
安全 3篇
爬虫 2篇
http 2篇
网络 1篇
代理 1篇
SpringBoot 1篇
maven 1篇
面试 1篇
蓝桥杯

最新评论

真-全局代理原理细谈
开心羊咩咩: 终于搞明白了。我之前一直用的启动application时设置全局代理地址。一直存在问题加载过慢就代理不成功的问题。谢谢大佬的优秀文章。[code=java] @Override public void run(ApplicationArguments args) throws Exception { //解决通信异常的问题w Properties systemProperties = System.getProperties(); systemProperties.setProperty("http.proxyHost", "127.0.0.1"); systemProperties.setProperty("http.proxyPort", "10809"); systemProperties.setProperty("https.proxyHost", "127.0.0.1"); systemProperties.setProperty("https.proxyPort", "10809"); systemProperties.setProperty("socksProxyHost", "127.0.0.1"); systemProperties.setProperty("socksProxyPort", "10808"); systemProperties.setProperty("http.nonProxyHosts", "localhost"); systemProperties.setProperty("https.nonProxyHosts", "localhost"); System.setProperty("sun.net.client.defaultConnectTimeout", String.valueOf(5000));// （单位：毫秒） System.setProperty("https.protocols", "TLSv1,TLSv1.1,TLSv1.2,SSLv3"); } [/code]
PyCharm使用Scrapy导入items失败
Ikarosxx: 你好，我看了一下，貌似没有打码？如果有的话可能也是随意而为吧
PyCharm使用Scrapy导入items失败
S903784597: 请不要在奇怪的地方打码，很影响观感，比如本地文件路径，我很好奇本地路径是什么隐私吗？
PyCharm使用Scrapy导入items失败
姜川JC: 写的真的很有用，我这种小白刚开始学，错误一大堆。
AppScan等保问题
Ikarosxx: 我这边文档提示的是使用了这几个参数， "isadmin":true,"issso":true,"role":"admin"，我们采用的比较粗暴的办法，就是确定一下我们系统没有这几个参数，然后直接全局检测入参，包含这几个参数直接禁止

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Ikarosxx 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。