自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

转载 Word2vec 之 Skip-Gram 模型

一、Skip-Gram 模型结构 1、模型 Word2Vec模型中,主要有Skip-Gram和CBOW两种模型,从直观上理解,Skip-Gram是给定input word来预测上下文。而CBOW是给定上下文,来预测input word。 Skip-Gram模型的基础形式非常简单,为了更清楚地解释模型,我们先从最一般的基础模型来看Word2Vec(下文中所有的Word2Vec都是指Skip-Gra...

2018-10-30 19:44:03 215

转载 Ansj 分词使用

一、 Ansj Ansj 是一个开源的 Java 中文分词工具,基于中科院的 ictclas 中文分词算法,比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。 Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户...

2018-10-30 11:08:46 2020

转载 感知机、梯队下降、激活函数、损失函数

神经网络语言模型(NNLM)涉及的概念 神经网络语言模型(NNLM),通过神经网络训练语言模型可以得到词向量。 1. 感知机 感知机就是一个将两类物体分开的一条直线(一个超平面)。我们将一些参数输进感知机,感知机就能告诉我这个点属于“芝士”还是“巧克力”。在机器学习中,这样的点称为“数据”,而各个维度的坐标大小称之为“特征”。而可以对点分类的感知机就是神经网络的一个神经元。 例如,确定给二维世界原...

2018-10-28 19:43:37 1366

转载 WordEmbedding 和 Word2vec 相关名词解释

WordEmbedding 和 Word2vec 相关名词解释 自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化。之所以希望把每个单词变成一个向量,目的还是为了方便计算,比如“求单词A的同义词”,就可以通过“求与单词A在cos距离下最相似的向量”来做到。 ##一、NLP 词的表示方法类型(representation) 1. One-Hot representat...

2018-10-28 10:32:47 707

转载 有监督学习、无监督学习、分类、聚类、回归等概念

转自: https://blog.csdn.net/PTkin/article/details/50910546 有监督学习、无监督学习、分类、聚类、回归等概念 这篇是很久之前写的了.. 后来才开始上 Andrew Ng 老师的 MOOC,发现其实老师讲得很好了,建...

2018-10-26 17:23:01 475

转载 自然语言处理应用方向和专业英语

  自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理处理的内容涉及到语言的各个层次,包括字、词、句、段落、篇章和语义。 目前自然语言处理的主要研究和应用方向有: 1、  统计语言模型: 统计语言模型是自然语言处理的主流技术之一。我们...

2018-10-26 10:41:09 1107

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除