简单的利用bs4提取了一些东西,中途尝试了网上的多个版本,自己简单的模仿了一下。
主要提取部分:
<a href="/article/117808662" target="_blank" class='contentHerf' >
<div class="content">
<span>偶遇小朋友玩家家酒!<br/>一小姑娘说:谁要扮演老公的?只见小男孩们纷纷举起小手:我、我、我……<br/>好,这是你的搓衣板和尿壶,你就跪在这上面手上拖着尿壶,我在旁边化妆</span>
</div>
</a>
找到相应class提取span即可
from urllib.request import urlopen ,Request
from bs4 import BeautifulSoup
import re
import time
x=1
def gogogo(page):
global x
url = "http://www.qiushibaike.com/text/page/"+str(page)+"/?s=4922848"
H = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36'}
req = Request(url=url,headers=H)
res = urlopen(req)
H = BeautifulSoup(res,"html.parser")
t = H.findAll('a',{"class":re.compile("content")})
for i in t:
lists = i.find('span')
f.write(str(x)+":")
x=x+1
f.write(lists.get_text())
f.write("\n\n")
time.sleep(1)
if __name__ =="__main__":
f = open("d.txt",'a',encoding='utf-8')
for i in range(1,4):
gogogo(i)
print('Good Job!')
f.close()
程序代码比较简单,需要模拟一下浏览器访问即可,正在学习计算机网络,第10行的内容可以根据自己的浏览器进行替换,学一下开发者工具还是很重要的。