DIY简单功能的torrentkitty种子爬虫

最新推荐文章于 2024-08-10 14:47:02 发布

weixin_30892987

最新推荐文章于 2024-08-10 14:47:02 发布

阅读量9.6w

点赞数

文章标签：爬虫 python

原文链接：http://www.cnblogs.com/h4ck0ne/p/5154623.html

版权

本文介绍了如何利用Python和lxml库，通过简单的几步操作，快速编写一个爬虫来抓取torrentkitty网站上的种子链接。通过设置User-Agent避免反爬，用XPath定位目标元素，实现高效抓取。只需几分钟即可完成代码编写，方便快捷。

摘要由CSDN通过智能技术生成

过完年回公司比较无聊，一不小心看到微博里美尤莉娅的图片，惊为天人，有图为证！！！

百度之原来这货以前叫小泉彩，貌似动了几个小手术换了个马甲重新出道了。你拍AV你家里知道么？。于是乎下了几个种子看了下，感觉还行（像苍老师什么的我真的没有看过哈哈），狠一点把全集全搞到百度网盘上。

貌似这货拍了200多部，真不少。人工学习了下，torrentkitty的种子貌似还是蛮全的。搜一下关键字11页，接近200+个结果，这一个一个ctrl+c ctrl+v这不得直接导致键盘+鼠标手。祭出FIREBUG+PYTHON，写个爬虫把地址全部搞出来。因为目的比较单纯和纯洁，所以就不用SCRAPY这么大型的东西了。效率第一。

FIREBUG看了下结构，目标的XPATH在/html/body/div[4]/div/table/tbody/tr[2]/td[4]/a[2]，直接LXML把地址抓出来只需要一行代码，SO EASY！！

最低0.47元/天解锁文章

weixin_30892987

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。