python编写的bt爬虫实践

最新推荐文章于 2024-09-07 20:38:39 发布

Fourierrr_

最新推荐文章于 2024-09-07 20:38:39 发布

阅读量5.9k

点赞数 2

分类专栏： python 文章标签： python 爬虫种子 bt base64

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Fourierrr_/article/details/79485306

版权

本文介绍了如何使用Python编写一个BT种子爬虫，从选择btbook网站作为目标，分析请求头、URL编码，利用Base64解码关键字，再到使用BeautifulSoup解析HTML，提取链接和种子标题。过程中遇到的挑战包括正则表达式的使用和内容的二次编码，最后展示了完整功能的代码结构。

摘要由CSDN通过智能技术生成

前言

网上各种爬虫实战都有很多，比如爬取微博，贴吧消息，妹子图等等。但是爬bt的就很少了（似乎暴露了什么。。。），所以准备自己动手写一个爬bt的爬虫。

好的，话不多说进入正题，博主用的python3.6，ide用的sublim。

正文

首先就是寻找一个合适的bt搜索网站，记得以前有好多著名的bt站，比如种子列表，或者torrentkitty什么的，后来由于某些大家都知道的原因，这样的网站封禁了一大批。所以这次我选用的是一个名叫btbook的网站。emmm，虽然也有广告，但是算非常少的一个了，页面也比较干净。（大家不要好奇去点弹出的X榴社区的广告，那是假的！假的！）

用谷歌或者火狐自带的开发者工具。f12一下，可以看到网页源码，找到搜索框部分，如下

可以看到在一个id=“search-form”的表单里边有我们所需要的东西。我们还发现了更多的信息，比如通过这个表单向服务器传送数据的方法是get，文本框的name=‘q’等等。

接下来肯定是要导入各种爬虫所需要的库，urllib用于进行一系列对url的操作，BeautifulSoup用于解析html，使其变成字典或者数组，比起正则表达式来说方便了许多。

我们先编写代码尝试获取一下网站的html源码

[python]view plain copy

最低0.47元/天解锁文章

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。