自然语言处理系列
研究方向
爱在桂子山
每个人都是拿着猎枪的猎人
展开
-
自然语言处理基础梳理
1、TF-IDFTF代表一个文档里的词频IDF代表所有文档里的词频,代表全局信息TF-IDF将TF和IDF相乘,是基于统计学的方法2、词向量CBOW:挑一个要预测的词来学习这个词前后文中词语和预测词的关系Skip-Gram:把上述过程反过来,使用文中某个词,然后预测这个词周边的词3、句向量词向量加工成句向量:Encoding过程,进行压缩,到另一个向量空间,然后Decoding,解压seq2seq:Encoding为LSTMCNN:Encoding为卷积,卷积核的意思原创 2021-04-18 21:08:01 · 107 阅读 · 0 评论 -
Sentencepiece构建词典
一、在Ubuntu下安装sentencepiece的C++版本1、安装环境依赖sudo apt-get install cmake build-essential pkg-config libgoogle-perftools-dev2、源文件编译git clone https://github.com/google/sentencepiece.git cd sentencepiecemkdir buildcd buildcmake ..make -j $(nproc)sudo原创 2021-04-17 17:47:59 · 1983 阅读 · 2 评论 -
使用Hugging Face的分词器构建词典
1、安装tokenizerspip install tokenizers2、特殊字符的文件special.txt[PAD][unused1][unused2][unused3][unused4][unused5][unused6][unused7][unused8][unused9][unused10][unused11][unused12][unused13][unused14][unused15][unused16][unused17][unused18原创 2021-04-17 17:09:52 · 946 阅读 · 1 评论 -
序列模型
目录1循环序列模型1.1为什么选择序列模型1.2数学符号1.3循环神经网络模型序列模型1循环序列模型1.1为什么选择序列模型例子这些问题可以称作使用标签数据(x,y)作为训练集的监督学习,序列问题有很多不同的类型,有些问题里,输入数据x和输出数据y都是序列,但就算在这种情况下,x和y有时也不会一样长1.2数学符号假如一个序列模型,输入语句是这样的:Harry Potter and Herminoe Granger invented a new spell.原创 2021-03-22 00:21:55 · 232 阅读 · 0 评论