小说爬虫程序

  1. 首先导入相关的库

  1. 确认我们需要爬取的网站地址

Headers:是一个浏览器伪装,通常在使用爬虫给的时候我们需要一个浏览器伪装这样可以帮助我们将爬虫程序伪装成一个正常的浏览器访问,从而绕过一些网站的检测

Url:这个是我们需要爬取的网站网站地址

Page_text:这个时候我们调用resquest请求去获取页面的元素

  1. 解析网站的数据

  1. 调用soup库的方法采取lxml页面解析的方法

  1. Soup.select解析网站的css样式,可以看到小说的标题放在了ul li元素里

“>”这个元素可以定位到ul li下面内容,如果是需要跨越很多级去寻找,我们可以使用

“ ”空格来获取 例如:h3 li

  1. 打开一个叫“xiaoshuo.txt”的文件,写入内容,编码格式为UTF-8

  1. title=li.a.string

获取li元素下的内容,在这里相当于获取小说章节的标题

5、detail_url="https://www.readnovel.com"+li.a['href']

这里新建一个url地址用来获取每个章节打开后的网址,在网站上我们获取的网址都是不全的,这里我们需要拼接出一个完整的网址,然后进行访问获取章节的内容

6、打开章节内容界面我们可以定位一下小说的内容在哪里,然后再次解析页面的数据

使用find查找css样式定位到小说内容的具体位置

7、保存我们爬取到的小说

fp.write(title + ":" + content + '\n')

将小说的章节作为内容标题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

The end !

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值