爬取糗事百科
python 爬虫练习
日期:2019年6月3日
- 使用
requests
完成页面爬取。 - 使用
xpath
模块完成解析。
import requests
from lxml import etree
PAGE = 10 # 爬取页数设置
# 爬取函数
def gettext(url):
HEADERS = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
}
r = requests.get(url, headers = HEADERS, timeout=30)
r.encoding = 'utf-8'
return r.text
# 使用 xpath 解析 html
def getxpath(html):
return etree.HTML(html)
def main():
url_pre = 'https://www.qiushibaike.com/text/page/'
data = []
for i in range(1,PAGE):
# 构造 url
url = url_pre + str(i)
# 调用爬取函数
r = gettext(url)
# 调用解析函数
s = getxpath(r)
# 使用 xpath 解析出糗事文本,并存放在列表中
data += s.xpath('//div[@class="content"]/span/text()')
# 将列表转换为字符串
text = "".join(data)
# 将字符串写入文本文件
with open("qiu.txt","w",encoding="utf-8") as f:
f.write(text)
if __name__ == main():
main()
附几个爬取到的笑话:
新房入住,远远看见男友往家走,好像还不大记路,跟着一个穿雪纺裙的美女走错了很大一截路。我赶上前一拍他肩膀,这货吓得一个激凌,拍着胸口:艾玛又走错了!要不是我看见前面美女裙内衬塞进了丁.字.裤隐约透露半个屁股,我差点就信了他的邪!!!!
在女友家,一次正嘿咻到紧要关头,突然听到后面一声大吼:“搞我老婆!劳资TM弄死你!”。。。原来是电视的声音,吓得我一下子就软了,女友哭笑不得地叹息着:唉!瞧你那点出息,如果真是我老公回来了你不得吓死啊。。。