中国古代诗词文本挖掘项目

PoemMining项目通过文本挖掘技术对中国古代诗词进行研究,包括诗人画像生成、地点足迹识别、相似诗人聚类和情绪分类等。已构建包含92127首诗词的语料库,并能展示诗人足迹地图,如李白、李清照等。
摘要由CSDN通过智能技术生成

PoemMining

项目地址:https://github.com/liuhuanyong/PoemMining

Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基于爬虫与nlp的中国古代诗词文本挖掘项目

项目介绍

中国古代诗词文化无疑是文化瑰宝,如何运用计量语言学方法对古代诗词进行挖掘,将有重要意义,本项目将从以下几个方面进行尝试:
1)基于诗词集合的诗人画像生成
2)基于诗词集合的诗人地点足迹识别
3)基于诗词集合的相似诗人聚类, 基于ATM模型,user2vec模型
4)基于诗词集合的情绪分类,标签自动生成
5)基于诗词集合的意象挖掘

项目结构

项目主要包括两个任务:

  1. 古代诗词语料库的构建
  2. 基于古代诗词语料库的挖掘

脚本结构

1, poem_spider.py:主要完成古代诗词语料库的构建,选取的是古诗文网 (https://so.gushiwen.org),结果已经保存至corpus_poem.zip文件当中
2, poem_process.py:主要基于构建起来的古诗词语料库,进行基础的文本分析,根据网站上的用户交互信息,得到古诗词文本本身的外部信息
3, atm_model.py:利用作者-主题模型,对古诗词进行主题分析,最终目的是实

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值