一打开控制台窗口就中文输入_AllenNLP——有史以来最便捷的中文文本分类

最新推荐文章于 2021-10-23 16:25:06 发布

weixin_39710251

最新推荐文章于 2021-10-23 16:25:06 发布

阅读量58

点赞数

文章标签：一打开控制台窗口就中文输入

使用AllenNLP进行中文文本分类或者其他任务都非常方便，初学NLP的同学一定不要错过！

AllenNLP使用的分词工具主要是spacy，主要用于英文，不能用于中文，但是这个库是可以处理各种语言的，因此我们只需要新增中文的WordSplitter，就可以使用AllenNLP处理中文数据了。此外，该NLP库会将各种复杂的预处理以及后处理帮助你完成，多数情况下只需要自己编辑读取数据的DatasetReader、model以及配置文件，使用起来比较方便。

在前几篇文章中，我们实现了thulac和jieba的中文分词。

街道口扛把子：AllenNLP源码拓展——中文分词2zhuanlan.zhihu.com

街道口扛把子：AllenNLP源码拓展——中文分词zhuanlan.zhihu.com

接下来，我尝试使用AllenNLP处理中文数据，实验选择最简单的中文分类，仅用来验证处理中文数据的可行性，不追求太高的准确度。

准备数据：

THUCNews的一个子集（10类），形式是一行为一个标签和一段文本，中间用中文空格隔开。

中文文本分类问题：THUCNews数据集 - qq_36047533的博客 - CSDN博客blog.csdn.net

2. 中文词向量，我选择了一个300维的，形式是一行为一个词加300个数字，中间用空格隔开。

https://github.com/Embedding/Chinese-Word-Vectorsgithub.com

3. 读取数据的DatasetReader。需要注意的就是这个数据集中，标签和文本是用中文空格隔开的。

https://github.com/Whu-wxy/allennlp/blob/master/allennlp/data/dataset_readers/text_classification_txt.pygithub.com

4. 编辑config文件。这个我尝试了两个基于LSTM的模型，稍有不同。一个是embedding->seq2vec->classifier，另一个是embedding->seq2seq->seq2vec->classifier。

https://github.com/Whu-wxy/allennlp/blob/master/training_config/cnews.jsongithub.com https://github.com/Whu-wxy/allennlp/blob/master/training_config/cnews2.jsongithub.com

训练模型：

1.分词速度对比

jieba

thulac

可以看出jieba比thulac分词速度快了好多，所以我最终选择用速度更快的jieba。

2. 训练

训练只需要在控制台输入

allennlp train ./path/config.json -s ./save_path

训练的超参数我仅参考了其他的config文件，随便设置了一下，最终得到的准确度还不错，验证集上最高都是大约95%。

得到的中文词典

config1训练曲线

config2训练曲线

可以看出效果还是很不错的。

3. Predict

训练完成后，可以在保存的目录下看到model.tar.gz，之后可以使用这个文件进行预测。但是仍然会遇到编码的问题，需要对predictor进行稍微修改。

亲测以下修改方法可行。

然后将需要预测的文本保存到一个txt文件，格式是{"sentence":"预测内容"}

然后在控制台输入类似下面的命令进行预测。

 allennlp predict ./cnews2/model.tar.gz ./pred.txt --cuda-device
 0 --batch-size 1 --predictor text_classifier --output-file ./pred_output

得到的结果如下：

左边是源文件，右边是输出结果的文件

我从新浪新闻随便找了几个新闻进行预测，结果如下图，感觉很有趣。

weixin_39710251

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一打开控制台窗口就中文输入_AllenNLP——有史以来最便捷的中文文本分类

使用AllenNLP进行中文文本分类或者其他任务都非常方便，初学NLP的同学一定不要错过！AllenNLP使用的分词工具主要是spacy，主要用于英文，不能用于中文，但是这个库是可以处理各种语言的，因此我们只需要新增中文的WordSplitter，就可以使用AllenNLP处理中文数据了。此外，该NLP库会将各种复杂的预处理以及后处理帮助你完成，多数情况下只需要自己编辑读取数据的DatasetRe...
复制链接

扫一扫