![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
NLP
爱吃草莓的西瓜酱
这个作者很懒,什么都没留下…
展开
-
文本分类之神经网络技巧
NLP笔记整理类目不均衡(loss被一部分类别占主导地位),尝试类boostsrap方法调整loss中样本权重方式解决Fine-tuning是必选的,如果只是使用word2vec训练的词向量作为特征表示,一定会损失很大的效果。一定要使用dropout,有两种情况可以不用:数据量特别小,或者使用了更好的正则方法,比如bn。一般dropout设置为0.5,。超参调节: 看论文 A Sensi...原创 2020-03-21 11:43:09 · 240 阅读 · 0 评论 -
Regex 正则化
纯粹为了方便自己查找原创 2020-02-13 12:00:09 · 104 阅读 · 0 评论 -
NLP 各类word-embedding
Word-EmbeddingOne-hot Encoding将N个单词转为长度为N的向量,如果是该单词,该位就置为1优点:稀疏,各维度都是独立的,也就是各个单词都是独立的Bag-of-Words(BoW) Model【词袋模型】把一个句子/文档中的单词数进行统计每个文档都转换为<word,count>map对文档相似度:cosineeuclidean dis...原创 2019-12-30 18:21:02 · 284 阅读 · 0 评论 -
Cs224N 之NMT&models with attention
最后再看Bert,ELMo相关的论文,但对于NLP翻译和ATTENTION机制都不太清楚,就翻出这篇网课进行学习。参考了别人的笔记,感觉写的很清楚。http://www.hankcs.com/nlp/cs224n-9-nmt-models-with-attention.html...原创 2019-02-17 11:25:01 · 202 阅读 · 0 评论 -
NLP之 NMT 解决语料不足与解码效率
NMT 两大问题问题描述神经机器翻译模型的参数的训练依赖于平行语料,但是语料匮乏,那如何提高语料的效率?如何提高解码效率?数据效率的提升使用第三方语言作为桥接神经机器翻译模型在低资源的情况下,比传统统计翻译模型效率差NMT :两个部分,将源语言翻译成条件语言,在翻译成目标语言需要两部分解码若在条件语言发生错误,会导致目标语言也出现问题注:teac...原创 2019-04-28 10:58:43 · 832 阅读 · 0 评论 -
jieba分词-tfidf文本表征-SVM分类
jieba分词-tfidf文本表征-SVM分类数据预处理import pandas as pdimport jiebaimport numpy as npfrom sklearn import feature_extractionfrom sklearn.feature_extraction.text import TfidfTransformerfrom sklearn.fe...原创 2019-06-20 21:01:29 · 2622 阅读 · 3 评论