目录
全文参考:https://blog.csdn.net/c406495762/article/details/105797795
不一样的地方是他是在笔趣阁爬的
我是在起点女生网爬的(毕竟要学以致用嘛)
PS:此书是我自己写的,不存在版权问题(阅读量堪忧,欢迎大家爬)
一、单文爬取
# 导入库
import requests
from bs4 import BeautifulSoup
if __name__ == '__main__':
#通过network找到真实的requests Url
target = 'https://read.qidian.com/chapter/AACaxx0PHCFwe0zGvdPFgA2/VblDx409BEH6ItTi_ILQ7A2'
req = requests.get(url = target)
# encoding方式可以用chardet查看,不赘述
req.encoding = 'utf-8'
html = req.text
bs = BeautifulSoup(html, 'lxml')
#这部分要通过审查元素的elements来找
texts = bs.find('div',class_='read-content j_readContent')
#这里要先print(texts)然后观察要split什么东西
print(texts.text.strip().</