利用requests库和正则表达式方法,爬取斗破苍穹小说网斗破苍穹小说全文免费在线阅读(天蚕土豆) - 斗破小说网 (doupoxs.com)
中该小说的信息,并将爬取的数据存储到本地文件中。
需要爬取的信息为全文的文字信息
我为了运行方便,只爬取了1-10页的信息,可自由选择需要爬取的信息
import requests
import re
import time
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.67'
}
#新建TXT文件,追加的方式
f = open('D:\hxy学习\python\doupo.txt','a+')
#定义获取信息的函数
def get_info(url) :
resp = requests.get(url,headers=headers)