用腾讯NeuralClassifier进行数据分类时需要注意到的问题

最新推荐文章于 2024-04-29 20:54:21 发布

rainbow199191

最新推荐文章于 2024-04-29 20:54:21 发布

阅读量1.2k

点赞数 2

本文链接：https://blog.csdn.net/ererand22/article/details/99732186

版权

本文介绍了使用腾讯NeuralClassifier进行中文数据分类时的数据预处理步骤，包括从txt文件转换为json格式，去除停用词，以及将数据划分为测试、训练和验证集。还强调了处理编码问题和调整模型配置，如设置multi_label为single_label并采用TextRCNN文本编码器。

摘要由CSDN通过智能技术生成

1.准备数据集

腾讯原有的数据集是英文，这里用自己准备的中文数据集时，需要进行处理，处理成分类器需要的json格式，代码如下：

import re
import jieba
import json
import logging
import time
def get_stopwords():
logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)
#加载停用词表
stopword_set = set()
with open("C:\\Users\\11039\\Desktop\\stopwords.txt",'r',encoding="utf-8") as stopwords:
for stopword in stopwords:
stopword_set.add(stopword.strip("\n"))
return stopword_set

def trs2txt(input_file, output_file):

with open(input_file, "r", encoding = "utf-8") as corpus:
corpus_data = corpus.read()
corpus_data = re.sub("[\s]+", "", corpus_data)
#print(corpus_data)
match_obj_text &

最低0.47元/天解锁文章

rainbow199191

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
用腾讯NeuralClassifier进行数据分类时需要注意到的问题

1.准备数据集腾讯原有的数据集是英文，这里用自己准备的中文数据集时，需要进行处理，处理成分类器需要的json格式，代码如下：import reimport jiebaimport jsonimport loggingimport timedef get_stopwords(): logging.basicConfig(format='%(asctime)s:%(level...
复制链接

扫一扫