- 博客(6)
- 收藏
- 关注
转载 Word2vec 之 Skip-Gram 模型
一、Skip-Gram 模型结构 1、模型 Word2Vec模型中,主要有Skip-Gram和CBOW两种模型,从直观上理解,Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文,来预测input word。 Skip-Gram模型的基础形式非常简单,为了更清楚地解释模型,我们先从最一般的基础模型来看Word2Vec(下文中所有的Word2Vec都是指Skip-Gra...
2018-10-30 19:44:03
215
转载 Ansj 分词使用
一、 Ansj Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。 Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户...
2018-10-30 11:08:46
2020
转载 感知机、梯队下降、激活函数、损失函数
神经网络语言模型(NNLM)涉及的概念 神经网络语言模型(NNLM),通过神经网络训练语言模型可以得到词向量。 1. 感知机 感知机就是一个将两类物体分开的一条直线(一个超平面)。我们将一些参数输进感知机,感知机就能告诉我这个点属于“芝士”还是“巧克力”。在机器学习中,这样的点称为“数据”,而各个维度的坐标大小称之为“特征”。而可以对点分类的感知机就是神经网络的一个神经元。 例如,确定给二维世界原...
2018-10-28 19:43:37
1366
转载 WordEmbedding 和 Word2vec 相关名词解释
WordEmbedding 和 Word2vec 相关名词解释 自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。之所以希望把每个单词变成一个向量,目的还是为了方便计算,比如“求单词A的同义词”,就可以通过“求与单词A在cos距离下最相似的向量”来做到。 ##一、NLP 词的表示方法类型(representation) 1. One-Hot representat...
2018-10-28 10:32:47
707
转载 有监督学习、无监督学习、分类、聚类、回归等概念
转自: https://blog.csdn.net/PTkin/article/details/50910546 有监督学习、无监督学习、分类、聚类、回归等概念 这篇是很久之前写的了.. 后来才开始上 Andrew Ng 老师的 MOOC,发现其实老师讲得很好了,建...
2018-10-26 17:23:01
475
转载 自然语言处理应用方向和专业英语
  自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理处理的内容涉及到语言的各个层次,包括字、词、句、段落、篇章和语义。 目前自然语言处理的主要研究和应用方向有: 1、  统计语言模型: 统计语言模型是自然语言处理的主流技术之一。我们...
2018-10-26 10:41:09
1107
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人