爬取个小说玩一玩, 在开始之前,先引入我们所需要的的模块:
import requests
import re
from bs4 import BeautifulSoup
获取整个页面:
URL = 'http://m.xxqishu.com/book/54/64307/1.html'
From_data = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
}
response = requests.get(url=url1, data=From_data)
response1 = response.text
使用BeautifulSoup定位我们想要的内容
soup = BeautifulSoup(response.text, 'lxml')
data = soup.select('body>div.wrapper>div.content>div.articlecon.font-large>p')
开始对匹配的内容进行整理,剔除(内容比较杂,剔除的就多一点!!)
data = str(data)
a = data.replace('<br/>', '\n')
b = a.replace('<p>', '')
c = b.replace('[', '')
d = c.replace(']', '')
string_new = d.replace('</p>', '')
最后保存数据
with open(url4, 'a', encoding='utf8') as f: # url4 保存的文件地址
f.write(i)
好了,这个就是我们需要的内容了,以上代码并不能爬取多页(如果想爬取的话,可以看一下每一页的URL,都是有规律的,也是比较简单),以上代码仅作为学习使用!!