使用唐诗语料库,经过去噪预处理、分词、生成搭配、生成主题等过程,生成唐诗。
csdn下载地址:http://download.csdn.net/detail/lijiancheng0614/9840952
github上repository地址:https://github.com/lijiancheng0614/poem_generator
环境
Python 2.7
Flask
jieba
运行方法
如果是第一次运行,则需要安装相关的库及生成初始数据:
pip install flask
pip install jieba
python preprocess.py
python get_collocations.py
python get_topic.py
python get_start_words.py
以后只需要输入以下代码即可运行网站:
python index.py
实现
预处理
观察到给定的唐诗语料库存在以下噪声:
诗句中出现类似的HTML标签。
出现空格、“.”等字符。
诗句中出现注释,用“(”、“)”标出来。
诗句不完整,出现方框字符。
对于前三种情况的噪声,直接去掉即可。对于最后一种噪声,直接把这行诗句忽略考虑。(此外,对于第三种噪声,“(”、“)”不在同一行时未处理。)