自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 05笔趣阁小说爬取--爬取作者所有小说

前面的程序已经实现了从笔趣阁自动爬取整部小说,接下来在之前的基础上,将功能进一步扩展,实现自动爬取某一作者在笔趣阁中的所有小说。考虑到程序还会进一步扩展,这里将之前的代码重新调整,使之模块化。

2020-06-11 11:11:18 965

原创 04笔趣阁小说爬取--爬取整部小说

通过爬取内容部分实现了将小说单章内容下载到本地,通过爬取章节目录部分得到了小说章节名称和完整链接。要下载整部小说,只要将两部分合起来即可。考虑到爬取时间有点长,再加上一行信息充当进度条。完整代码如下import requestsfrom bs4 import BeautifulSoup# 获取章节名称和链接target = 'https://www.52bqg.com/book_12525/' # 目录页地址req = requests.get(url = target)req.

2020-06-09 16:59:01 884

原创 03笔趣阁小说爬取--爬取章节目录

现在已经能够爬取单章内容,如果要爬取整部小说,利用现在的代码就是:手动输入每一章的网址,然后运行代码……考虑到网络 小说动辄几百上千甚至上万的章节数,手动下载是一个十分艰苦漫长的任务!!如果 能得到小说所有章节的链接,通过遍历所有链接就能下载整部小说了。、从哪里找所有章节的链接?打开卡徒的目录页(https://www.52bqg.com/book_12525/)在目录页点右键“查看网页源代码”,从源代码页中可以看到,小说所有章节的名称和链接都在这里。现在要做的就是从目录页中提取

2020-06-09 11:17:21 1234

原创 02笔趣阁小说爬取--爬取单章内容--内容优化

通过之前的努力,已经成功将章节内容爬取到本地。打开爬取的txt文件,发现如下问题1.每章前都有“一秒记住【笔趣阁 www.52bqg.com】,精彩小说无弹窗免费阅读!”的广告文字;2.段首有多余 的空格;3.有空行;现在要将下载的内容进行优化,使其显示更加美观。这里使用replace()方法去掉多余部分。查看网页源代码<br />&nbsp;&nbsp;&nbsp;&nbsp;能量卡刚一插入卡槽,房间便恢复光明。仪表上显.

2020-06-09 08:35:18 948

原创 01笔趣阁小说爬取--爬取单章内容

最近在学python,对python爬虫特别感兴趣,做为一名编程初学者,参考了见同网上大神们的教程(笔趣看小说Python3爬虫抓取),将盗版小说网站笔趣阁www.52bqg.com做为练手的目标。环境准备:谷歌浏览器、Pycharm、python3、request和BeautifuSoup模块。pip install requestspip install beautifulsoup4目标:爬取笔趣阁方想《卡徒》第一章内容(https://www.52bqg.com/book_1...

2020-06-08 17:06:45 680

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除