腾讯NeuralClassifier之文本分类

最新推荐文章于 2024-04-29 20:54:21 发布

manbuyunduanLML

最新推荐文章于 2024-04-29 20:54:21 发布

阅读量1k

点赞数 3

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/manbuyunduanLML/article/details/103717677

版权

NeuralClassiﬁer是腾讯开源的一款基于pytorch的深度学习文本分类工具，该框架的特色是提供了一种层次多标签分类方法，同时也支持文本的二分类、多分类、多标签分类。框架自带的数据集为英文的层次多标签分类数据集。如何跟换自带数据集进行我们自己的数据集的训练和测试呢？下面以文本二分类为例进行说明：

（1）首先，将数据集转化为框架支持的json格式。这里选用酒店评论数据，部分数据格式如下：
在这里插入图片描述
（2）框架自带的数据为英文数据集，若要进行中文文本的训练和测试，要注意编码问题，需要将所有涉及文件读入的地方添加encoding=‘utf-8’
（3）下面需要修改配置文件参数：这里需要注意的一个问题，框架中配置文件也是json格式，json格式文件是不支持注释的，否则程序在读取json配置文件时候会出现错误。
（4）除了修改配置文件中的"label_type"、“hierarchical”、“data”、"model_name"等，还需要特别注意的地方有如下：
（5）“num_worker”: 4，修改为 “num_worker”: 0
（6）损失函数问题:选择适合single_label的损失函数，否则会出现以下错误：

ValueError: Target size (torch.Size([64])) must be the same as input size (torch.Size([64, 2]))

（7）最后注意层次结构：.taxonomy文件，这里只有二分类，所以文件只有根标签
Root pos ner

manbuyunduanLML

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

manbuyunduanLML CSDN认证博客专家 CSDN认证企业博客

码龄8年

17: 原创

55万+: 周排名

5万+: 总排名

4万+: 访问

: 等级

407: 积分

8: 粉丝

25: 获赞

10: 评论

68: 收藏

私信

关注

分类专栏

问题记录 1篇
深度学习 2篇
大数据 2篇
office 1篇
spark 1篇

最新评论

腾讯NeuralClassifier之文本分类
菜菜超努力: 博主，请问一下配置文件中的，里面的数字是什么意思啊？？ "HMCN": { "hierarchical_depth": [0, 384, 384, 384, 384], "global2local": [0, 4, 55, 43, 1]
将多个txt文件导入excel
manbuyunduanLML: 没有遇到乱码，你试试把文档编码先改成utf-8后再试
将多个txt文件导入excel
anyizhuang22: 你好，想问一下文字是乱码怎么解决呢
腾讯NeuralClassifier之文本分类
qq_41592547: 博主，想请教一下，我做多标签分类的时候，一直报错，NeuralNLP-NeuralClassifier-master/NeuralNLP-NeuralClassifier-master/evaluate/classification_evaluate.py", line 267, in evaluate if prob_np[predict_label_idx[j]] > threshold: IndexError: index 39 is out of bounds for axis 0 with size 39 是怎么回事
将多个txt文件导入excel
m0_56252420: txt导不全怎么办。

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。