NLP实战之fasttext进行THUCNews文本分类python

最新推荐文章于 2022-11-23 15:38:34 发布

小白胖爱学习-

最新推荐文章于 2022-11-23 15:38:34 发布

阅读量5.4k

点赞数

文章标签： python 深度学习 fasttext nlp 文本分类

本文链接：https://blog.csdn.net/m0_37723079/article/details/107646524

版权

本文介绍了使用fasttext进行THUCNews新闻数据集的文本分类，详细讲述了数据文件的整理、训练过程，并对比了与其他模型的速度差异。同时，提到了fasttext在参数调整和无监督学习词向量方面的应用。

摘要由CSDN通过智能技术生成

计划赶不上变化快的fasttext来啦~ fasttxt实力演绎神秘叫我超好用但是你别想好好用。安装这个大坑请看Win10+anaconda3+安装fasttext
数据集还延用清华的新闻数据子集，为了能直接调用fasttext，我们需要将数据稍微整理有一下，每行包括一个训练句子和标签，默认情况下，标签是以__label__开头的字符串单词。

数据文件整理

import jieba
import pandas as pd
import codecs

# 我是一个可爱的进度条
from tqdm import tqdm

stopwords_set = set()
basedir = 'D:/S/Learn/CNew/'

# 分词结果文件
train_file = codecs.open(basedir + 'cnews.seg.train', 'w', 'utf-8')
test_file = codecs.open(basedir + 'cnews.seg.test', 'w', 'utf-8')

# 停用词文件
with open(basedir + 'cnews.vocab.txt', 'r', encoding='utf-8') as fp:
    for line in fp:
        stopwords_set.add(line.strip())

train_data = pd.read_table(basedir + 'cnews.train.txt', header=None, error_bad_lines=False)
test_

最低0.47元/天解锁文章

小白胖爱学习-

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
NLP实战之fasttext进行THUCNews文本分类python

计划赶不上变化快的fasttext来啦~初始化文件import jiebaimport pandas as pdimport codecsfrom tqdm import tqdm#import randomstopwords_set = set()basedir = 'D:/S/Learn/CNew/'# 分词结果文件train_file = codecs.open(basedir + 'cnews.seg.train', 'w', 'utf-8')test_file = co
复制链接

扫一扫