python获取藏头诗内容_用Python作诗,生活仍有诗和远方

具体步骤:

使用爬虫爬取全唐诗,总共抓取了71000首。

#使用urllib3的内置函数构建爬虫的安全验证,来应对网站的反爬虫机制

http = urllib3.PoolManager(

cert_reqs= 'CERT_REQUIRED',

ca_certs=certifi.where())

#爬虫的目标网站

r = http.request( 'GET', url)

#爬虫获取的html数据

soup = BeautifulSoup(r.data, 'html.parser')

content = soup.find( 'div', class_= "contson")

使用正则表达式对爬取的数据进行处理

p1 = r"[u4e00-u9fa5]{5,7}[u3002|uff0c]"#[汉字]{重复5-7次}[中文句号|中文逗号]

pattern1 = re.compile(p1) #编译正则表达式

result = pattern1.findall(poemfile) #搜索匹配的字符串,得到匹配列表

对诗词正文进行分词操作

#使用jieba中文分词库的textRank算法来找出各个词性的高频词

forx injieba.analyse.textrank(content, topK= 600, allowPOS=( 'n', 'nr', 'ns', 'nt', 'nz', 'm')):

唐诗生成,处理韵脚

#使用pinyin库

pip install pinyin

verse = pinyin.get( "天", format= "strip")

#输出:tian

对于韵脚,本来是想找出所有的韵脚并做成字典形式存储起来,但韵脚总共有20多个,

后来发现其实20多个韵脚都是以元音字母开始的,我们可以基于这个规则来判断:

rhythm = ""

rhythmList = [ "a", "e", "i", "o", "u"]

verse = pinyin.get(nounlist[i1][ 1], format= "strip")

#韵脚在每个pinyin倒叙最后一个元音字母处截止

forp inrange(len(verse)- 1, - 1, - 1):

ifverse[p] inrhythmList:

ind = p

rhythm = verse[ind:len(verse)]

目前是最初级的五言律诗,且为名动名句式

rhythm = ""

rhythmList = [ "a", "e", "i", "o", "u"]

whilenum < 4:

#生成随机数

i = random.randint( 1, len(nounlist)- 1)

i1 = random.randint( 1, len(nounlist)- 1)

j = random.randint( 1, len(verblist)- 1)

#记录韵脚

ind = 0

ind1 = 0

if(num == 1):

rhythm = ""

verse = pinyin.get(nounlist[i1][ 1], format= "strip")

#韵脚在每个pinyin倒叙最后一个元音字母处截止

forp inrange(len(verse)- 1, - 1, - 1):

ifverse[p] inrhythmList:

ind = p

rhythm = verse[ind:len(verse)]

#确保2,4句的韵脚相同,保证押韵

if(num == 3):

ind1 = 0

verse1 = pinyin.get(nounlist[i1][ 1], format= "strip")

forp inrange(len(verse1)- 1, - 1, - 1):

ifverse1[p] inrhythmList:

ind1 = p

whileverse1[ind1: len(verse1)] != rhythm:

i1 = random.randint( 1, len(nounlist)- 1)

verse1 = pinyin.get(nounlist[i1][ 1], format= "strip")

forp inrange(len(verse1)- 1, - 1, - 1):

ifverse1[p] inrhythmList:

ind1 = p

#随机排列组合

print(nounlist[i]+verblist[j][ 1]+nounlist[i1])

num += 1藏头诗

其实思路很简单,既然我们有了语料库,那么,我们每次在排列组合词的时候,只需保证生成每句时,第一个名词的第一个字,是按序给定四字成语中的即可

forx inrange(len(nounlist)):

ifnounlist[x][ 0] == str[num]:

i = x

来看一下结果:

四言诗:

所思浮云

关山车马

高楼流水

闲人肠断

关山车马

高楼流水

闲人肠断

五言律诗:

西风时细雨

山川钓建章

龙门看萧索

几年乡斜阳

山川钓建章

龙门看萧索

几年乡斜阳

藏头诗:

落花流水

落晖首南宫

花枝成公子

流水名朝廷

水声胜白石

花枝成公子

流水名朝廷

水声胜白石

参考:

https://segmentfault.com/a/1190000004571958

当然,现在生成的唐诗还是比较低级的,属于基础的古诗文词语排列组合。

接下来考虑优化模版,提取五言和七言常用句式作为模版。

另外考虑使用机器学习的方法,写RNN来让计算机自动生成充满韵味的诗。

(完)

图文来自网络、如涉及版权问题,请联系我们以便处理。文章内容纯属作者个人观点,不代表本网观点。

BOOK

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值