利用BeautifulSoup和和requests库实现古诗文网的古诗抓取
运行平台: Windows
Python版本: Python 3.8
IDE: Pycharm
抓取古诗文网的古诗和标题
网页分析
古诗文网https://www.gushiwen.org/default_1.aspx
所有的古诗都放在div class=“left” 中的 div class=“son” 中.
而古诗的标题则在其中的p标签的a标签中,古诗的内容在div class=“contson” 中
代码
# 从古诗文网上爬取古诗
import requests
from bs4 import BeautifulSoup
def parser_page(url):
response = requests.get(url)
html = response.text
bs = BeautifulSoup(html, 'html.parser')
sons = bs.find_all('div', class_='left')[1].find_all('div', class_='sons')
print('\n')
for son in sons:
title = son.find('p').a.string
poem = son.find('div', class_='contson')
# 去除前面的标签符号和<br>这些
poem = str(poem.text.replace('\xa0' * 8, '\n'))
print(title, end=' : ')
print(