NLP
是晨星啊
keep coding...
展开
-
Flat-Lattice-Transformer项目经验教训
1、没有仔细核对项目的运行环境(requirement)部分比如没有选对 FastNLP的版本,直接pip install 会安装0.6.0版的FastNLP,导致后面运行项目时频繁报错。例如:ImportError: cannot import name '_get_file_name_base_on_postfix' from 'fastNLP.modules.utils'2、windows系统下文件名不可带冒号否则生成cache文件时会出现异常3、文件路径可通过 pwd 命令在终端查原创 2021-03-16 15:24:12 · 1174 阅读 · 4 评论 -
fastNLP安装
python3.5对应的fastNLP版本为 0.3.3,而TENER要求版本大于等于0.5,因此选择python3.6使用清华镜像安装Python模块pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpypip install -i https://pypi.tuna.tsinghua.edu.cn/simple torc...原创 2019-12-13 19:00:20 · 2477 阅读 · 0 评论 -
自然语言处理跟踪研究
Tracking Progress in Natural Language Processing跟踪自然语言领域的研究成果,包括文本分类和文本摘要。SOTAhttps://github.com/sebastianruder/NLP-progress原创 2019-02-20 20:00:48 · 237 阅读 · 0 评论 -
自然语言处理入门
michael collins的自然语言处理coursera课程+讲义https://shenglei.live/machine_learning/posts/2016/12/18/maching-learning-nlp-1/https://github.com/learning511/cs224n-learning-camphttps://www.jiqizhixin.com/artic...转载 2019-02-21 17:11:02 · 186 阅读 · 0 评论 -
文本的特征工程
文本分类实战系列(一):特征工程 http://www.jeyzhang.com/text-classification-in-action.html https://blog.csdn.net/John_xyz/article/details/79602506转载 2018-08-23 21:47:50 · 1423 阅读 · 0 评论 -
情感分析综述学习
Word2Vec 词嵌入 一般来说,Word2Vec 方法由两部分组成。首先是将高维 one-hot 形式表示的单词映射成低维向量。例如将 10,000 列的矩阵转换为 300 列的矩阵,这一过程被称为词嵌入。第二个目标是在保留单词上下文的同时,从一定程度上保留其意义。Word2Vec 实现这两个目标的方法有 skip-gram 和 CBOW 等,skip-gram 会输入一个词,然后尝试估计其...转载 2018-08-19 21:35:02 · 695 阅读 · 0 评论 -
文本处理方法概述
文本处理方法概述 https://www.cnblogs.com/arachis/p/text_dig.html转载 2018-08-13 14:52:25 · 320 阅读 · 0 评论 -
Text-CNN 和 fastText
使用 text-CNN 处理自然语言读取imdb数据集使用 Tokenizer 将影评文字转换成数字特征截长补短,让每句数字影评长度相同使用 Embedding 层将每个词编码(数字特征)转换为词向量 https://blog.csdn.net/fendouaini/article/details/79832322 https://blog.csdn.net/fendo...原创 2018-08-01 16:10:42 · 1843 阅读 · 0 评论 -
Learning to Rank
单文档方法(Pointwise),文档对方法(Pairwise),文档列表方法(Listwise)。 References1 2 3原创 2018-04-25 23:24:53 · 172 阅读 · 0 评论 -
词嵌入算法
Word Embedding 为了克服文字长短不一和将词与词之间的联系纳入模型的困难,人们使用了一种技术——词嵌入。 常见的词嵌入算法有:“Word2Vec”和“Glove”「词嵌入(word embeddings)」术语,来指代词语在低维度向量空间的稠密表示。「词嵌入」和「分布式表征(distributed representations)」是两种可互换的表示方法。我们将特别强调「神经词...转载 2018-03-16 10:09:59 · 2100 阅读 · 0 评论 -
word2vec
连续词袋模型(CBOW) https://zhuanlan.zhihu.com/p/27234078 http://blog.csdn.net/u014595019/article/details/51943428转载 2017-09-30 14:43:43 · 261 阅读 · 0 评论 -
tf-idf
词频-逆文档频率 tf-idf = tf 乘 idf tf 是词频 idf 是文档频率的倒数再取对数 tf-idf 是 tf 和 idf 的乘积原创 2017-09-21 22:09:33 · 243 阅读 · 0 评论