python爬虫之爬取起点中文网小说

本文介绍了如何使用python爬虫从起点中文网抓取小说信息,涉及urllib.request和lxml.etree库,通过设置请求头、解析网页获取章节链接和标题,最终将文章内容保存为txt文件。
摘要由CSDN通过智能技术生成

python爬虫之爬取起点中文网小说

hello大家好,这篇文章带大家来制作一个python爬虫爬取阅文集团旗下产品起点中文网的程序,这篇文章的灵感来源于本人制作的一个项目:电脑助手 启帆助手
在这里插入图片描述
⬆是项目的部分源码

准备工作

用到的库有:

  • urllib.request
  • lxml.etree

代码分析

  1. 第一步:导入要用到的库
from urllib import request
from lxml import etree

2.第二步:设置请求头及小说网址(这里的网址以作者写的一本为例)

header = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}
url="https://book.qidian.com/info/1020546097"

3.第三步:爬取每个章节的链接、标题,并解析

req = request.Request(url, headers=header)
html = request.urlopen(req).read().decode('utf-8')
html = etree.HTML(html)
Lit_tit_list = ht
  • 4
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值