![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
文章平均质量分 84
NLP作业
fly_guy
这个作者很懒,什么都没留下…
展开
-
基于seq2seq自动生成小说
基于seq2seq自动生成小说 本次实验基于Seq2seq模型来实现文本生成的模型,输入为一段已知的金庸小说段落,来生成新的段落并做分析。 序列到序列学习(seq2seq)模型 遵循编码器解码器架构的设计原理,RNN 编码器可以采用可变长度序列作为输入,并将其转换为固定形状的隐藏状态。换句话说,输入(源)序列的信息被编码 RNN 编码器的隐藏状态。要通过令牌生成输出序列令牌,单独的 RNN 解码器可以根据已看到的(例如在语言建模中)或生成的令牌以及输入序列的编码信息来预测下一个令牌。 [外链图片转存失败,源原创 2021-05-28 15:52:03 · 1910 阅读 · 0 评论 -
Topic Model 中文文本分类
Topic Model 中文文本分类 LDA模型 LDA将文档表示为主题的集合,主题生成具有一定概率的单词。 文档按以下方式生成: 确定文档具有的单词数N(例如,根据Poisson分布)。 选择文章的主题(根据固定K个主题集合上的Dirichlet分布)。例如,假设我们上面有食物和可爱的动物主题,你可能会选择包含1/3食物和2/3可爱的动物的文档。 在文档中生成每个词w_i: 首先选择一个主题(根据您上面采样的多项式分布;例如,您可能以1/3的概率选择食物主题,而以2/3的概率选择可爱的动物主题)。 使原创 2021-04-30 14:31:45 · 422 阅读 · 0 评论 -
中文信息熵
中文信息熵 数据的预处理 创建f_names列表,使用glob库中的glob函数将所有小说文件路径放进去 使用正则表达式获取文件中的中文存入data中 使用jieba分词对小说进行分词处理 最后将所有的分词放在cleaned_data中 import glob from opencc import OpenCC opencc = OpenCC('t2s') path = 'xiaoshuo' ######################################################原创 2021-04-15 17:01:36 · 1092 阅读 · 0 评论