词向量源码解析：（6.2）fasttext源码解析之文本分类1

最新推荐文章于 2024-05-25 22:32:39 发布

Sailing_ZhaoZhe

最新推荐文章于 2024-05-25 22:32:39 发布

阅读量1.1k

点赞数

分类专栏：词向量

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011793737/article/details/78133433

版权

我们这个系列是介绍词向量的，怎么这里突然介绍文本向量？实际上fasttext中文本向量就是词向量的平均，得到文本向量并进行分类的代码和word2vec中的CBOW非常像。我们先看一下classification-example.sh。这个脚本文件会对来自于dbpedia的文本进行分类。分类前要对文本进行预处理并且打乱。

myshuf() {
perl -MList::Util=shuffle -e 'print shuffle(<>);' "$@";
}

normalize_text() {
tr '[:upper:]' '[:lower:]' | sed -e 's/^/__label__/g' | \
sed -e "s/'/ ' /g" -e 's/"//g' -e 's/\./ \. /g' -e 's/<br \/>/ /g' \
-e 's/,/ , /g' -e 's/(/ ( /g' -e 's/)/ ) /g' -e 's/\!/ \! /g' \
-e 's/\?/ \? /g' -e 's/\;/ /g' -e 's/\:/ /g' | tr -s " " | myshuf
}

然后就是下载数据集，normalize数据集，normalize_text()包括了myshuf。训练集是dbpedia.train，测试集是dbpedia.test

RESULTDIR=result
DATADIR=data

最低0.47元/天解锁文章

Sailing_ZhaoZhe

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
词向量源码解析：（6.2）fasttext源码解析之文本分类1

我们这个系列是介绍词向量的，怎么这里突然介绍文本向量？实际上fasttext中文本向量就是词向量的平均，得到文本向量并进行分类的代码和word2vec中的CBOW非常像。我们先看一下classification-example.sh。这个脚本文件会对来自于dbpedia的文本进行分类。分类前要对文本进行预处理并且打乱。myshuf() { perl -MList::Util=shuffl
复制链接

扫一扫

专栏目录

Sailing_ZhaoZhe CSDN认证博客专家 CSDN认证企业博客

码龄11年

43: 原创

105万+: 周排名

199万+: 总排名

4万+: 访问

: 等级

965: 积分

54: 粉丝

17: 获赞

7: 评论

19: 收藏

私信

关注

热门文章

分类专栏

词向量 41篇

最新评论

词向量源码解析：（3.5）GloVe源码解析之glove
Liu_Genie: vector_size加1是因为还有个bias，可以回去看一下论文
词向量源码解析：（5.2）ngram2vec源码解析之uni_uni
lc451574367: scripts/clean_corpus.sh baidu_corpus_cut_2.txt > baidu2019.clean 你好，这行代码得到的baidu2019.clean 不是去掉英文之后的语料库，而是把语料库中的英文和数字提取了出来，请问，怎么才能把语料库中的英文和数字去掉
词向量源码解析：（4.9）hyperwords源码解析小结
sunnychou0330: 为什么这写都打不开尼
词向量源码解析：（5.6）ngram2vec源码解析之pairs2counts
sunnychou0330: 我想知道的是，以word+ngram+character作为信息源，ngram2vec工具包的输入是什么，希望得到您的帮助，十分感谢！
词向量源码解析：（5.6）ngram2vec源码解析之pairs2counts
sunnychou0330: 作者您好，想问一下如果想通过ngram2vec工具包，以word+ngram+character作为信息源，以中文维基百科为训练语料，在整个过程中是怎么样的？我看了您的帖子在ngram2pairs中，可以加入多个信息源作为上下文，在此的话，我加的信息源即是词，字和ngram块，在一开始的训练流程是，先获取corpus-vocabulary，接着是vocabulary-pairs，再是pairs-counts，再进行三元组（word、context、矩阵/character、context、矩阵/ngram、context、矩阵，这三者的信息源）的加载对吗？这个理解对吗？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。