大家好,今天给大家带来Python爬虫的简易制作,很适合新手练手。
爬虫即是利用程序模仿真实用户浏览网页并记录目标内容,从而可避过网站的广告,以获取较好的阅读体验。
本次以辰东大神的新书《圣墟》为例,向大家展示一下爬虫。欢迎大家批评指正。
需要用到的工具:
python3.x
pycharm
思路:
1.获取页面源代码
2.获取章节链接
3.获取章节网页源代码
4.获取正文
5.下载至本地
具体步骤及代码如下:
一.获取页面源代码:
1.搜索圣墟,进入笔趣阁网站,获取网站地址:https://www.biqiuge.com/book/4772/,按F12进入网页源码界面。
2.打开pycharm,建立Python文件,导入requests等库,并利用requests库中的get函数获取页面源码,具体代码如下:
import urllib.request
import re
import requests
def download_novel(