利用Scrapy编写“1024网站种子吞噬爬虫”，送福利

最新推荐文章于 2024-05-05 08:21:00 发布

weixin_33995481

最新推荐文章于 2024-05-05 08:21:00 发布

阅读量4.8w

点赞数

文章标签：爬虫 python php

原文链接：https://juejin.im/post/5be14b28f265da61602c65ed

版权

在爬取东西之前，我们需要简单分析一下小草网站的结构。爬虫，是依照URL来爬取的，那么我们首先来分析一下小草的URL吧。

1# 不骑马的日本人板块
2http://bc.ghuws.men/thread0806.php?fid=2&search=&page=2
3# 骑马的日本人板块
4http://bc.ghuws.men/thread0806.php?fid=15&search=&page=2
5# 英语老师板块
6http://bc.ghuws.men/thread0806.php?fid=4&search=&page=2
复制代码

这是挑选了几个不同的板块之间的URL，我们发现，他们就是fid=XX这个数字不同啊。传入不同的page参数，应该就是第几页。这样，我们就能连续的爬取不同page之间的信息了。

爬到页面了，我们接下来就是要找每个页面的post了，这就要涉及到html的知识了。由于这些页面长的都一样，他们的结构也都是差不多的，所以，我们随便选取一个页面，来看看他post的html长什么样子。

1<td class=

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33995481

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用Scrapy编写“1024网站种子吞噬爬虫”，送福利

在爬取东西之前，我们需要简单分析一下小草网站的结构。爬虫，是依照URL来爬取的，那么我们首先来分析一下小草的URL吧。1# 不骑马的日本人板块2http://bc.ghuws.men/thread0806.php?fid=2&search=&page=23# 骑马的日本人板块4http://bc.ghuws.men/thread0806.php?fid=15&sear...
复制链接

扫一扫