朴素贝叶斯写诗机器人

最新推荐文章于 2023-10-05 16:16:42 发布

是三爷啊

最新推荐文章于 2023-10-05 16:16:42 发布

阅读量514

点赞数

分类专栏：机器学习文章标签：机器学习朴素贝叶斯

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27311165/article/details/86514205

版权

lishangyin.txt是诗词文件。诗分两种，一种是七言的，比如“相见时难别亦难，东风无力百花残”。一种是五言的，比如“八岁偷照镜，长眉已能画”。如下图

LishangyinPre.py是数据预处理用的。由于笔者已经做了这一步，读者朋友们可以跳过。它的作用是生成两个文件words.txt和sample.txt。对于七言诗句，第一第二个字成一个词，第三第四个字成一个词，第五、第六、第七个字单独成词，所以七言诗句可以用5个词表示。对于五言诗句，每个字单独成词，所以五言诗句也是用5个词表示。比如“相见时难别亦难，东风无力百花残”可以切分为10个词“相见/时难/别/亦/难，东风/无力/百/花/残”，比如“八岁偷照镜，长眉已能画”可以切分为10个词“八/岁/偷/照/镜，长/眉/已/能/画”。然后给这些词赋予id。比如“相见”的id是1，“别难”的id是2。LishangyinPre.py的作用是遍历所有诗句，对每句诗切分出来的词赋予id，如果看到这个词已经被赋予过id，则跳过这个词（代码里用一个字典存储）。它将“id-词”对写进了文件words.txt里。LishangyinPre.py还做了一件事，它再次遍历所有诗句，将两句诗歌表示成了10个词的id序列，比如“相见时难别亦难，东风无力百花残”被换成了“1 2 3 4 5 6 7 8 9 10”,每个词用它的id换掉。将结果写进了文件sample.txt里（一行就表示了两句诗哦）。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。