看小说新技能Get——爬虫练习

想看小说,但是小说网站的广告又层出不穷,点一页出来一个广告,拦截广告的操作我又不是很熟练,那就把小说资源移动到没有广告的地方吧——我不写小说,但我是小说的搬运工
搬运第一步,瞄准网址,打开F12,看看内容在哪里。
在这里插入图片描述
Nice! 竟然光明正大的放在这儿,那就别怪我搬运了(魔鬼脸,嘿嘿^-^)
要搬就得全部搬走,先把每一章的网址给他搬过来。上搬运工具,打开Python。瞄准网址:

url = 'http://www.biquge.info/74_74132/'

请求响应:

resp = requests.get(url)

在这里插入图片描述
每一章的网址都在红框这里藏着,写个正则全给他扒拉过来。)

temp = re.search('<div id="list">([\s\S]*?)</dl>',resp.text,re.M|re.I)
m1 = re.compile('<dd><a href="(.*)" title=".*?>(.*)</a></dd>')
temp = m1.findall(temp.group(1))`

好嘞,章节名和对应的网址都扒拉过来了。(网址说:请不要扒拉我*-*)
把他们分别存到两个列表里,一次就搬一章(毕竟我不会多线程,呜呜呜,难过~-~)
响应请求之后,正则匹配红框在的地方也就是正文,然后把空格和回车都替换好,网页里是用字母表示的。

temp = re.sub(r'&nbsp;&nbsp;', ' ', novel_one.group(1)) 
temp = re.sub('<br/>', '\n', temp)

在这里插入图片描述
然后,保存到自己的.txt中,再次露出魔鬼笑-
开始搬运,……………… 100% 成功!
在这里插入图片描述
竟然有十一兆,搬运好辛苦,把这个文件发给手机,用自带的看书工具打开,嗯……一点广告都没了,可以安心看了,笑^-^,(仅作学习交流,不要做违法的事情哦!)
在这里插入图片描述

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

折只千纸鹤

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值