前言
在之前的《中国诗词大会》上面,曾经出现过诗词接龙的规则,当然诗词接龙肯定不是现在才有的内容,它应该是来源于飞花令
飞花令
飞花令是古人行酒令时的一个文字游戏,得名于唐代诗人韩翃(hóng)《寒食》中的春城无处不飞花”。行飞花令时可选用诗词曲中的句子,但选择的句子一般不超过7个字。
一般而言,对于成语接龙大家或多或少都还能接上一些,但是对于诗词接龙,如果不是特别研究诗词的人,那么一般最多接上那么一句两句而已。
在节目中看到一个个选手那么厉害的表现,其实也很羡慕,但是对于程序员来说,不管你多厉害,依然是敌不过程序的,毕竟在大脑中存贮的诗词再丰富,也没有计算机存的多,反应也不会有电脑那么快。
不然在比赛中如何判定胜负呢,这都是提前写好的程序,由电脑直接判定
思路
本文来简单的实现一下诗词接龙
首先是收集诗词,在比赛中可以限定规则,比如诗句只能是五言律诗,或者只能是唐诗宋词等,所以我们可以根据规则来收集不同的的诗词库
我们的目标是古诗文网 :https://www.gushiwen.org/shiwen/
这个网站将各种类型的诗歌都分好类了,很容易就能找到需要的内容了
收集诗歌
通过爬虫脚本收集制定的诗歌,使用urllib或者request获取网页内容,通过bs4、pyquery、lxml、xpath等解析工具获取诗歌内容
然后将诗歌存贮到本地即可
程序:
import re
import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED
# 爬取的诗歌网址
urls = ['https://so.gushiwen.org/gushi/tangshi.aspx',
'https://so.gushiwen.org/gushi/sanbai.aspx',
'https://so.gushiwen.org/gushi/songsan.aspx',
'https://so.gushiwen.org/gushi/songci.aspx',
'https://so.gushiwen.org/gushi/shijiu.aspx'
]
poem_links = []
# 诗歌的网址
for url in urls:
# 请求头部
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36'}
r