python爬虫torrentkitty的种子

本文分享了一个Python爬虫程序,用于自动化从TorrentKitty网站抓取种子信息,无需手动操作,避免了弹窗网页等不便。该程序依赖lxml库,目前已实现抓取10页的数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >






python爬虫torrentkitty的种子


话不多说上源代码,只要把lxml的库安装下就好了

这个程序完全是解放双手,而且没有弹窗网页等困扰

__author__ = 'JianqingJiang'
# -*- coding: utf-8 -*-
import urllib2
from lxml import etree
import os
pre_url ='http://www.torrentkitty.org/search/tokyohot/'
os.chdir('/Users/JianqingJiang/Downloads/')

def steve(page_num,file_name):
    url = pre_url + str(page_num)
    print url
    ht = urllib2.urlopen(url).read()
    content = etree.HTML(ht.lower().decode('utf-8'))
    mags = content.xpath("//a[@rel='magnet']")
    with open(file_name,'a') as p: # '''Note''':Append mode, run only once!
        for mag in mags:
            p.write("%s \n \n"%(mag.attrib['href'])+"\n") ##!!encode here to utf-8 to avoid encoding
            print "%s \n \n"%(mag.attrib['href'])

for page_num in range(0,10):
    print (page_num)
    steve(page_num, 'steve.txt')

差不多爬了10页就这样了。。。。


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值