fasttext 安装_fasttext的简单介绍

本文介绍了如何在Linux或Mac环境下安装并使用fasttext进行新闻文本分类。首先,通过jieba分词处理原始文本,生成fasttext训练和测试数据集。接着,使用fasttext的python包训练模型,并测试其精度、召回率。实验结果显示,fasttext分类效果良好,但在预测时出现未训练的类别。
摘要由CSDN通过智能技术生成

需要注意的问题:

1、linux mac 平台

2、标签中的下划线是两个!两个!两个!

环境说明:python2.7、linux

自己打自己脸,目前官方的包只能在linux,mac环境下使用。误导大家了,对不起。

测试facebook开源的基于深度学习的对文本分类的fastText模型

fasttext python包的安装:

1 pip install fasttext

第一步获取分类文本,文本直接用的清华大学的新闻分本,可在文本系列的第三篇找到下载地址。

输出数据格式: 样本 + 样本标签

说明:这一步不是必须的,可以直接从第二步开始,第二步提供了处理好的文本格式。写这一步主要是为了记忆当时是怎么处理原始文本的。

import jieba

import os

basedir = "/home/li/corpus/news/" #这是我的文件地址,需跟据文件夹位置进行更改

dir_list = ['affairs','constellation','economic','edu','ent','fashion','game','home','house','lottery','science','sports','stock']

##生成fastext的训练和测试数据集

ftrain = open("news_fasttext_train.txt","w")

ftest = open("news_fasttext_test.txt","w")

num = -1

for e in dir_list:

num += 1

indir = basedir + e + '/'

files = os.listdir(indir)

count = 0

for fileName in files:

count += 1

filepath = indir + fileName

with open(filepath,'r') as fr:

text = fr.read()

text = text.d

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值