合并转载
文章平均质量分 80
harry_128
这个作者很懒,什么都没留下…
展开
-
文本分类的tricks
趁机总结一下之前遇到过的一些小trick吧:数据预处理时vocab的选取(前N个高频词或者过滤掉出现次数小于3的词等等)词向量的选择,可以使用预训练好的词向量如谷歌、facebook开源出来的,当训练集比较大的时候也可以进行微调或者随机初始化与训练同时进行。训练集较小时就别微调了结合要使用的模型,这里可以把数据处理成char、word或者都用等有时将词性标注信息也加入训练数据会收到比较好的效果至于...原创 2018-07-10 16:43:43 · 818 阅读 · 1 评论 -
如何产生好的词向量?
如何产生好的词向量?词向量、词嵌入(word vector,word embedding)也称分布式表示(distributed representation),想必任何一个做NLP的研究者都不陌生。如今词向量已经被广泛应用于各自NLP任务中,研究者们也提出了不少产生词向量的模型并开发成实用的工具供大家使用。在使用这些工具产生词向量时,不同的训练数据,参数,模型等都会对产生的词向量有所影响,那么...转载 2018-07-11 15:35:45 · 712 阅读 · 0 评论 -
LSF-SCNN:一种基于CNN的短文本表达模型及相似度计算的全新优化模型
如果你对自然语言处理 (natural language processing, NLP) 和卷积神经网络(convolutional neural network, CNN)有一定的了解,可以直接看摘要和LSF-SCNN创新与技术实现部分。如果能启发灵感,应用于更多的现实场景中带来效果提升,那才是这篇文章闪光的时刻。如果你没有接触过NLP和CNN,也不在担心,可以从头到尾听我娓娓道来。有任何...转载 2018-07-12 11:30:12 · 3050 阅读 · 3 评论