- 博客(5)
- 收藏
- 关注
原创 05笔趣阁小说爬取--爬取作者所有小说
前面的程序已经实现了从笔趣阁自动爬取整部小说,接下来在之前的基础上,将功能进一步扩展,实现自动爬取某一作者在笔趣阁中的所有小说。考虑到程序还会进一步扩展,这里将之前的代码重新调整,使之模块化。
2020-06-11 11:11:18 965
原创 04笔趣阁小说爬取--爬取整部小说
通过爬取内容部分实现了将小说单章内容下载到本地,通过爬取章节目录部分得到了小说章节名称和完整链接。要下载整部小说,只要将两部分合起来即可。考虑到爬取时间有点长,再加上一行信息充当进度条。完整代码如下import requestsfrom bs4 import BeautifulSoup# 获取章节名称和链接target = 'https://www.52bqg.com/book_12525/' # 目录页地址req = requests.get(url = target)req.
2020-06-09 16:59:01 884
原创 03笔趣阁小说爬取--爬取章节目录
现在已经能够爬取单章内容,如果要爬取整部小说,利用现在的代码就是:手动输入每一章的网址,然后运行代码……考虑到网络 小说动辄几百上千甚至上万的章节数,手动下载是一个十分艰苦漫长的任务!!如果 能得到小说所有章节的链接,通过遍历所有链接就能下载整部小说了。、从哪里找所有章节的链接?打开卡徒的目录页(https://www.52bqg.com/book_12525/)在目录页点右键“查看网页源代码”,从源代码页中可以看到,小说所有章节的名称和链接都在这里。现在要做的就是从目录页中提取
2020-06-09 11:17:21 1234
原创 02笔趣阁小说爬取--爬取单章内容--内容优化
通过之前的努力,已经成功将章节内容爬取到本地。打开爬取的txt文件,发现如下问题1.每章前都有“一秒记住【笔趣阁 www.52bqg.com】,精彩小说无弹窗免费阅读!”的广告文字;2.段首有多余 的空格;3.有空行;现在要将下载的内容进行优化,使其显示更加美观。这里使用replace()方法去掉多余部分。查看网页源代码<br /> 能量卡刚一插入卡槽,房间便恢复光明。仪表上显.
2020-06-09 08:35:18 948
原创 01笔趣阁小说爬取--爬取单章内容
最近在学python,对python爬虫特别感兴趣,做为一名编程初学者,参考了见同网上大神们的教程(笔趣看小说Python3爬虫抓取),将盗版小说网站笔趣阁www.52bqg.com做为练手的目标。环境准备:谷歌浏览器、Pycharm、python3、request和BeautifuSoup模块。pip install requestspip install beautifulsoup4目标:爬取笔趣阁方想《卡徒》第一章内容(https://www.52bqg.com/book_1...
2020-06-08 17:06:45 680
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人