NLP实战之fasttext进行THUCNews文本分类python

本文介绍了使用fasttext进行THUCNews新闻数据集的文本分类,详细讲述了数据文件的整理、训练过程,并对比了与其他模型的速度差异。同时,提到了fasttext在参数调整和无监督学习词向量方面的应用。
摘要由CSDN通过智能技术生成

计划赶不上变化快的fasttext来啦~ fasttxt实力演绎神秘叫我超好用但是你别想好好用。安装这个大坑请看Win10+anaconda3+安装fasttext
数据集还延用清华的新闻数据子集,为了能直接调用fasttext,我们需要将数据稍微整理有一下,每行包括一个训练句子和标签,默认情况下,标签是以__label__开头的字符串单词。

数据文件整理

import jieba
import pandas as pd
import codecs

# 我是一个可爱的进度条
from tqdm import tqdm

stopwords_set = set()
basedir = 'D:/S/Learn/CNew/'

# 分词结果文件
train_file = codecs.open(basedir + 'cnews.seg.train', 'w', 'utf-8')
test_file = codecs.open(basedir + 'cnews.seg.test', 'w', 'utf-8')

# 停用词文件
with open(basedir + 'cnews.vocab.txt', 'r', encoding='utf-8') as fp:
    for line in fp:
        stopwords_set.add(line.strip())

train_data = pd.read_table(basedir + 'cnews.train.txt', header=None, error_bad_lines=False)
test_
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值