fasttext使用笔记

最新推荐文章于 2024-03-02 17:02:17 发布

AI小白入门

最新推荐文章于 2024-03-02 17:02:17 发布

阅读量1.1w

点赞数 3

分类专栏： word embedding

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37306360/article/details/72832606

版权

word embedding 专栏收录该内容

3 篇文章 1 订阅

订阅专栏

这里记录使用fastText训练word vector笔记

github地址：https://github.com/facebookresearch/fastText

下载到本机:

$ gitclone https://github.com/facebookresearch/fastText.git

$ cdfastText

$ make

Make报错：

原因GCC版本过低

Gcc –v

升级版本:参考（http://www.linuxidc.com/Linux/2016-11/136840.htm）

1. 添加源

首先添加ppa到库：

sudo add-apt-repository ppa:ubuntu-toolchain-r/test

sudo apt-get update

2. 安装新版gcc/g++(注意gcc和g++都要更新)

接着就可以选择安装gcc-4.9,gcc-5之类的啦!(注意目前gcc-5实际上是5.3.0，没有5.1或5.2可供选择)

sudo apt-get install gcc-4.8 g++-4.8

sudo apt-get install gcc-4.9 g++-4.9

sudo apt-get install gcc-5 g++-5

sudo apt-get install gcc-6 g++-6

具体希望安装哪个版本,大家可以自己选择

3. 刷新db并locate

接着现在可以考虑刷新一下, 否则locate等命令是找不到的, 这个也是可选的(非必须)

sudo updatedb && sudo ldconfig

locate gcc | grep -E "/usr/bin/gcc-[0-9]"

4. 切换版本

通过update-alternatives建立文件关联

sudo update-alternatives --install /usr/bin/gcc gcc /usr/bin/gcc-4.620

sudo update-alternatives --install /usr/bin/gcc gcc/usr/bin/gcc-4.8 30

然后在fastText文件夹下make,成功生成fastText执行文件。

接下来就可以愉快的使用了。

fastText可以可以用于训练 word represent和text classification，这里记录使用fastText训练word embedding过程。

1. 首先打开word-vector-example.sh文件

RESULTDIR=result //结果保存文件夹

DATADIR=data //输入数据文件夹

mkdir -p"${RESULTDIR}"

mkdir -p"${DATADIR}"

if [ ! -f"${DATADIR}/fil9" ] //如果fil9不存在，就下载

then

wget -c http://mattmahoney.net/dc/enwik9.zip-P "${DATADIR}"

unzip "${DATADIR}/enwik9.zip" -d"${DATADIR}"

perl wikifil.pl "${DATADIR}/enwik9"> "${DATADIR}"/fil9

fi

if [ ! -f"${DATADIR}/rw/rw.txt" ] //如果rw.txt不存在,就下载

then

wget -chttps://nlp.stanford.edu/~lmthang/morphoNLM/rw.zip -P "${DATADIR}"

unzip "${DATADIR}/rw.zip" -d"${DATADIR}"

fi

make

./fasttextskipgram -input "${DATADIR}"/fil9 -output"${RESULTDIR}"/fil9 -lr 0.025 -dim 100 \

-ws 5 -epoch 1 -minCount 5 -neg 5 -loss ns-bucket 2000000 \

-minn 3 -maxn 6 -thread 4 -t 1e-4-lrUpdateRate 100

//这行代码为训练word embedding，输入为DATADIR下的fil9，输出模型保存在RESULTDIR下fil9。

这些参数是强制性设定的:

- minCount 5：单词出现少于5就丢弃 -minn 最小长度的字符 -maxn 最长长度的字符 –t 采样阈值

这些参数是可选的：

-lr 学习率–epoch 迭代次数–neg 负采样–loss loss function {ns,hs, softmax} ---dim 词向量维度 –ws 窗口大小

cut -f1,2 "${DATADIR}"/rw/rw.txt | awk '{print tolower($0)}' | tr '\t' '\n'> "${DATADIR}"/queries.txt

cat"${DATADIR}"/queries.txt | ./fasttext print-word-vectors "${RESULTDIR}"/fil9.bin> "${RESULTDIR}"/vectors.txt

python eval.py -m "${RESULTDIR}"/vectors.txt -d"${DATADIR}"/rw/rw.txt

2. 使用自己的语料训练,这里我使用维基百科英文语料，处理过程前面有讲。

./fasttext cbow –input new_enwiki –output new_enwiki_100_30–epoch 30 –neg 5 –loss ns –dim 100 –ws 5

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
fasttext使用笔记

这里记录使用fastText训练word vector笔记github地址：https://github.com/facebookresearch/fastText 下载到本机:$ gitclone https://github.com/facebookresearch/fastText.git$ cdfastText$ make Make报错：
复制链接

扫一扫

专栏目录

AI小白入门

CSDN认证博客专家 CSDN认证企业博客

码龄7年

220: 原创

4万+: 周排名

18万+: 总排名

81万+: 访问

: 等级

8662: 积分

301: 粉丝

233: 获赞

147: 评论

1046: 收藏

私信

关注

热门文章

分类专栏

AI小白入门 53篇
智能司法 1篇
机器学习 3篇
PyTorch学习 12篇
自然语言处理 7篇
杂记 4篇
nlp 62篇
论文笔记 4篇
word embedding 3篇
代码笔记 10篇
ACM学习 55篇
环境搭建 13篇
Tensorflow 6篇
机器学习 28篇
Python 2篇
Java 6篇
linux 3篇
MXnet 7篇
深度学习
PyTorch 11篇
数据竞赛 2篇

最新评论

PyTorch: CNN实战MNIST手写数字识别
Hoo K: 也有可能是图片的问题，MNIST要求图片28x28，所以测试的时候找合适的照片验证。
PyTorch: 序列到序列模型(Seq2Seq)实现机器翻译实战
qq_45856438: 这个计算attention weights 的方法使用解码器的上一个输出的embedding 和hidden过一个线性层+softmax计算看标准的方法不是应该是用hidden和解码器的各个hidden来计算weights吗
自然语言处理基础技术工具篇之Stanfordcorenlp
m0_75187549: 您好，请教一下python进行句法分析后，怎么提取SAO结构
TF-IDF试用
zyf11234567: 处理数据时，遇到MemeryError，用博主的方法解决了。
PyTorch: Softmax多分类实战
eacon_zhu: 是你的torch版本的不同造成的。解决：将loss.data[0] 改成loss.item()

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。