技术博客

技术总结和分享

利用 word2vec 训练的字向量进行中文分词

最近针对之前发表的一篇博文《Deep Learning 在中文分词和词性标注任务中的应用》中的算法做了一个实现,感觉效果还不错。本文主要是将我在程序实现过程中的一些数学细节整理出来,借此优化一下自己的代码,也希望为对此感兴趣的朋友提供点参考。文中重点介绍训练算法中的模型参数计算,以及 Viterb...

2015-10-29 16:04:19

阅读数 2974

评论数 0

Google开源基于Deep Learning的word2vec工具

word2vec(word to vector)顾名思义,这是一个将单词转换成向量形式的工具。通过转换,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。 word2vec为计算向量词提供了一种有效的连续词袋(bag-of-words)和ski...

2015-10-29 16:02:56

阅读数 516

评论数 0

Google开源的Deep-Learning项目word2vec处理中文

推荐word2Vec,说的非常强大、有意思。故找了篇文章看,分享下。 全文转自http://www.cnblogs.com/wowarsenal/p/3293586.html google最近新开放出word2vec项目,该项目使用deep-learning技术将term表示为向量,由此计...

2015-10-29 15:59:41

阅读数 2278

评论数 0

How to Generate a Good Word Embedding?

来源:http://licstar.net/archives/620 自认为这是一篇有用的文章,供大家参考、利用。

2015-10-29 15:33:48

阅读数 964

评论数 3

纽约大学Yann LeCun深度学习

纽约大学Yann LeCun深度学习3小时教学PPT,浓缩几十年研究神经网络的精华 http://www.cs.nyu.edu/~yann/talks/lecun-ranzato-icml2013.pdf

2015-10-29 15:17:00

阅读数 1162

评论数 0

从头开始实现神经网络:入门

获取代码:接下来,为了匹配文章的内容,所有的代码都会在Github上以iPython笔记的形式提供。 本文中我们会从头实现一个简单的3层神经网络。我们不会推导所有的数学公式,但会给我们正在做的事情一个相对直观的解释。我也会给出你研读所需的资源链接。 这里假设你已经比较熟悉微积分和机器学习的概念...

2015-10-29 15:13:37

阅读数 2700

评论数 1

机器学习资源精华-整理收藏

整理收藏的机器学习的大量相关资源,包括开源软件包、基础数据集、以及论文集。 http://m.sciencemag.org/site/feature/data/compsci/machine_learning.xhtml

2015-10-29 15:09:37

阅读数 529

评论数 0

机器学习算法基础概念学习总结

1.基础概念: (1) 10折交叉验证:英文名是10-fold cross-validation,用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据,1分作为测试数据,进行试验。每次试验都会得出相应的正确率(或差错率)。10次的结果的正确率(或差错率)的平均...

2015-10-29 14:21:06

阅读数 1644

评论数 0

十张图解释机器学习的基本概念

在解释机器学习的基本概念的时候,我发现自己总是回到有限的几幅图中。以下是我认为最有启发性的条目列表。 1. Test and training error: 为什么低训练误差并不总是一件好的事情呢:ESL 图2.11.以模型复杂度为变量的测试及训练错误函数。 2. Under and ...

2015-10-29 14:17:50

阅读数 627

评论数 0

欧氏距离和cos相似度

机器学习中的欧氏距离和余弦相似度。

2015-10-28 14:05:06

阅读数 4162

评论数 0

文本自动分类

使用机器学习方法 做文档的自动分类 套路: 1.根据每个文件 生成该文件的一个特征 2.根据特征 选择 分类器 进行文本分类 3.(可选)根据 2 步结果,调整参数/特征等 示例: 数据:搜狗文本分类语料库 精简版 分类器:朴素贝叶斯 编程语言:Python+nltk自然语...

2015-10-28 13:22:09

阅读数 743

评论数 0

Deep Learning及NLP(自然语言处理)杂谈--第三部分

本杂谈分为三个部分,此文为第三部分。 第三部分 这一部分只介绍了一个model,就是在CV领域大名鼎鼎的CNN其他课程大多请的外宾过来讲课,讲得都是DL如何在实际情况下的应用。 CNN Basic CNN CNN顾名思义倦积神经网络这个model叫倦积神经网络...

2015-10-28 13:19:32

阅读数 637

评论数 0

Deep Learning及NLP(自然语言处理)杂谈--第二部分

本杂谈分为三个部分,此文为第二部分。 第二部分总结 这一部分主要讲了四个对NLP方面效果比较好的模型:1.GRUs(Gated Feedback Recurrent Neural Networks)  2.LSTMs(Long Short-Term Memory])  3....

2015-10-28 13:18:30

阅读数 2330

评论数 0

Deep Learning及NLP(自然语言处理)杂谈--第一部分

本杂谈分为三个部分,此文为第一部分。 听完斯坦福大学的CS224d公开课真是受益匪浅,课程安排紧凑而且内容翔实由浅入深,使我不仅对各种神经网络模型有一个认识,还对NLP的原理有了比较深刻的认识。 这门课程分为三个部分:第一部分是NLP的基本原理和DL的基础知识,DL的基础知识在UL...

2015-10-28 13:17:22

阅读数 1087

评论数 0

Word Embedding的通俗解释

Word Embedding是NLP中最频繁出现的词了,关于word embedding,其实很简单。

2015-10-28 13:01:21

阅读数 12140

评论数 1

协方差的意义和计算公式

协方差的意义和计算公式 学过概率统计的孩子都知道,统计里最基本的概念就是样本的均值,方差,或者再加个标准差。首先我们给你一个含有n个样本的集合,依次给出这些概念的公式描述,这些高中学过数学的孩子都应该知道吧,一带而过。 均值: 标准差: 方差: 很显然...

2015-10-27 19:00:41

阅读数 625

评论数 0

特征选择方法-信息增益

信息增益(IG,Information Gain)是很有效的特征选择方法。 但凡是特征选择,总是在将特征的重要程度量化之后再进行选择,而如何量化特征的重要性,就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化,关联性越强,特征得分越高,该特征越应该被保留。 在信息增益...

2015-10-27 16:01:08

阅读数 1630

评论数 0

Python语言下的机器学习库

Python是最好的编程语言之一,在科学计算中用途广泛:计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事...

2015-10-26 15:32:18

阅读数 634

评论数 0

ICML 2015压轴讨论总结:6大神畅谈深度学习的未来

【编者按】2015年ICML的深度学习研讨会,压轴大戏是关于深度学习未来的讨论。基于平衡考虑,组织方分别邀请了来自工业界和学术界的六位专家开展这次圆桌讨论。组织者之一Kyunghyun Cho(Bengio的博士后)在飞机上凭记忆写下本文总结了讨论的内容,他谨慎地表示一些转述不够准确,欢迎大家...

2015-10-26 15:28:10

阅读数 1332

评论数 0

从Theano到Lasagne:基于Python的深度学习的框架和库

深度学习是机器学习和人工智能的一种形式,利用堆积在彼此顶部的神经网络的多个隐藏层来尝试形成对数据更深层次的“理解”。 最近,深度神经网络以“Deep Dreams”形式在网站中如雨后春笋般出现,或是像谷歌研究原创论文中描述的那样:Inceptionism。 在这篇文章中,我们将讨论几个不同的深...

2015-10-26 15:24:59

阅读数 1196

评论数 1

提示
确定要删除当前文章?
取消 删除