利用requests库和正则表达式方法,爬取斗破苍穹小说网斗破苍穹小说全文免费在线阅读(天蚕土豆) - 斗破小说网 (doupoxs.com)
中该小说的信息,并将爬取的数据存储到本地文件中。
需要爬取的信息为全文的文字信息
我为了运行方便,只爬取了1-10页的信息,可自由选择需要爬取的信息
import requests
import re
import time
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.67'
}
#新建TXT文件,追加的方式
f = open('D:\hxy学习\python\doupo.txt','a+')
#定义获取信息的函数
def get_info(url) :
resp = requests.get(url,headers=headers)
# 判断请求码是否为200
if resp.status_code == 200:
contents = re.findall('<p>(.*?)<p>',resp.content.decode('utf-8'),re.S)
#正则获取数据写入TXT文件中
for content in contents :
f.write(content+'\n')
#不为200就pass掉
else:
pass
#程序主入口
if __name__ == '__main__' :
#构造多页url
urls = ['http://book.doupoxs.com/doupocangqiong/{}.html'.format(str(i)) for i in range(1,10)]
for url in urls :
get_info(url)#循环调用get_info()函数
time.sleep(1)#睡眠1秒
f.close()
程序运行部分结构如下