Requests初探

注意不是request,那是另一个模块。

requests 模块获取http回复十分方便,一句requests.get(url)即可搞定。
下面贴上从mliucixin.zuopinj.com/抓取刘慈欣小说全集的代码:

from re import findall
from time import sleep
import requests


end, start = 202227+1, 201980
num = end-start
with open('lcx.html', 'w', encoding='utf-8') as f:
    last_novel = ''
    for i in range(num):
        r = requests.get(
            'http://mliucixin.zuopinj.com/5561/%d.html' % (start+i))
        text = r.text.replace('\r\n', '')
        novel, chapter = findall(
            pattern='<meta name="keywords" content="(.*?)" />', string=text)[0].split(',')
        p = findall(pattern='<p>(.*?)</p>', string=text)[0]
        if novel != last_novel:
            f.write('<h1>%s</h1>\n' % novel)
            last_novel = novel
        f.write('<h2>%s</h2>\n' % chapter)
        print('writing', start+i, novel, chapter)
        f.write(p)
        f.write('\n')
        sleep(0.2)

几点说明:

  • 该网站url十分简单,只需一个for循环改改变最后.html前的数字即可抓取全集。
end, start = 202227+1, 201980
num = end-start
for i in range(num):
    r = requests.get('http://mliucixin.zuopinj.com/5561/%d.html' % (start+i))

抓到的网页大概是这样的:

<!doctype html>
<html
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值