- 博客(53)
- 资源 (22)
- 收藏
- 关注
转载 估计概率构造短语翻译表
经过第三步抽取短语后,获得基于短语系统使用的翻译短语对,而接下来的第四步就是短语翻译表概率估计,它的作用是对翻译短语对的正确性进行合理的评估。 在上一节,我们得到了短语对集合,如下图所示: 在这里,我们估计概率主要进行四个分数的计算,即双向短语翻译概率(正向:“源语言->目标语言”方向;反向:“目标语言->源语言”方向 )、双向词汇化权重。首先,
2015-11-21 16:42:44 870
转载 文本相似度算法
文本相似度算法1.信息检索中的重要发明TF-IDF1.1TFTerm frequency即关键词词频,是指一篇文章中关键词出现的频率,比如在一篇M个词的文章中有N个该关键词,则(公式1.1-1)为该关键词在这篇文章中的词频。1.2IDFInverse document frequency指逆向文本频率,是用于衡量关键词权重的指数,由公式(公式1.2-1)计算而得
2015-11-21 16:40:40 3235
转载 基于深层神经网络的命名实体识别技术
命名实体识别是从文本中识别具有特定类别的实体,例如人名、地名、机构名等。命名实体识别是信息检索,查询分类,自动问答等问题的基础任务,其效果直接影响后续处理的效果,因此是自然语言处理研究的一个基础问题。引言命名实体识别(Named Entity Recognition,后文简称NER)是指从文本中识别具有特定类别的实体(通常是名词),例如人名、地名、机构名、专有名词等。命名实体识
2015-11-21 16:38:13 1257
转载 话说正确率、召回率和F值
正确率、召回率和F值是在鱼龙混杂的环境中,选出目标的重要评价指标,本文就针对这三个指标得瑟得瑟。 不妨看看这些指标的定义先:正确率 = 正确识别的个体总数 / 识别出的个体总数召回率 = 正确识别的个体总数 / 测试集中存在的个体总数F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 不妨举这样一个例子:某池塘有1400条鲤鱼,3
2015-11-21 16:32:41 1923
转载 神经网络训练中的训练集、验证集以及测试集合
1:在NN训练中我们很常用的是训练集合以及测试集合,在训练集合上训练模型(我个人认为模型就是训练的方法以及对应的参数值,更偏重于参数值吧),训练好之后拿到测试集合上验证模型的泛华(就是该模型可以拿去实战的效果)的能力。2:但是对于上述情况,举个例子,比如是在训练一个多层网络,我们用类似minFUNC的方法来训练,那么这个优化包会直接根据我们的输入直接迭代出来一个很好地结果了,此时模型就
2015-11-21 16:30:14 11269 1
转载 神经网络编程入门
本文主要内容包括: (1) 介绍神经网络基本原理,(2) AForge.NET实现前向神经网络的方法,(3) Matlab实现前向神经网络的方法 。第0节、引例 本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_data_set 找到。这里
2015-11-21 16:28:25 1505
转载 词向量和语言模型
最近在看词向量相关的东西,需要看的相关论文很多,自己又没能抽出许多时间来细细品读。简单的读几篇又遇到了许多不懂的地方。发现了一篇很不错的blog,甚是欢喜,分享一下,希望对想看相关内容的朋友有所帮助。
2015-11-21 16:25:16 1114
转载 Deep learning:一(基础知识_1)
最近打算稍微系统的学习下deep learing的一些理论知识,打算采用Andrew Ng的网页教程UFLDL Tutorial,据说这个教程写得浅显易懂,也不太长。不过在这这之前还是复习下machine learning的基础知识,见网页:http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=DeepLearning。内容其实很短,每小节就那么几分钟,且讲得非常棒。
2015-11-19 11:30:25 563
转载 初识机器学习算法有哪些?
机器学习无疑是现在数据分析领域的一个重要内容,凡事从事IT工作领域的人都在平时的工作中或多或少的会用到机器学习的算法。机器学习有很多算法,不过大的方面可分为两类:一个是学习的方式,一个是算法的类似性。学习方式:根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方式。在机器学习领域,有几种主要的学习方式。将算法按照学习方式分类是
2015-11-19 11:23:38 786
转载 gensim-5个学习阶段
最近花了点时间学习nlp--实际只是学习使用nltk和伴随它出现的gensim。也许nlp在国内普及的时间还不是很长,绝大多数资料都来自nltk和gensim的官网,国内最多的例子止于演示一下nltk分词/划分词性,有点实效的是一篇用于比较Coursera上课程的相似度的文章,算是我入门学习的一个灯塔(一开始没有nlp的基础,只能先从更好理解的中文内容开始 =_=! ),不过其中也没有很好的结合语料库,算法也只有LSI的演示,文章内容和代码也欠缺更好的整理(不是在说作者坏话,但的确有不少改进空间。
2015-11-19 11:08:01 1653
转载 nltk-构建和使用语料库-可用于小说的推荐-完整实例
将构建语料库和使用语料库两个步骤拆分开,适用于更大数据量的场景:语料库提前处理好,要使用时直接加载。
2015-11-19 10:59:40 4466 7
转载 深度学习:实际问题解决指南
深度学习拥有解决大部分机器学习和人工智能领域问题的潜力,可以用来解决诸如语音识别、三维物体识别和自然语言处理等领域的难题。本文介绍了深度学习在解决实际问题中存在的优势与缺点。
2015-11-19 10:37:28 5432
转载 Deep Learning(深度学习)Convolutional Neural Networks卷积神经网络
Convolutional Neural Networks卷积神经网络 卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维
2015-11-16 10:09:34 2917
转载 deep learning 卷积神经网络的实现(Convolution Neural Networks)
本节将会讲到卷积神经网络的实现。说到卷积神经网络,在图像识别和目标检测方面已经取得了不错的效果,为什么要叫做卷积神经网络呢?主要是因为在特征提取的时候,输入图像会通过卷积核对原始图像进行特征抽取,然后再通过神经网络进一步进行特征提取,也可以称为降维,再通过分类器得到分类或者识别的结果,斯坦福大学研究人员通过卷积神经网络训练猫的图像,在YouTube视频中找到了关于猫的视频,这也是一个强大的应用。此
2015-11-16 10:08:40 2643
转载 KDnuggets热门深度学习工具排行:Pylearn2 居首,Caffe第三
如今深度学习是AI和机器学习领域最热门的学习趋势。我们来审查为深度学习而开发的软件,包括Caffe,CUDA convnet,Deeplearning4j,Pylearn2,Theano和Torch。
2015-11-16 10:05:34 590
转载 深度学习为何起作用——关键解析和鞍点
机器学习系统迈向人工智能的道路上,我们需要学习,泛化,避免维度灾难的方法,以及解决潜在解释因素的能力。本文从分布式表示、深度架构和易避免鞍点的理论驱动力三个方面对深度学习展开讨论。
2015-11-16 10:01:36 1244
转载 深度学习在自然语言处理的应用
在深度学习出现之前,文字所包含的意思是通过人为设计的符号和结构传达给计算机的。本文讨论了深度学习如何用向量来表示语义,如何更灵活地表示向量,如何用向量编码的语义去完成翻译,以及有待改进的地方。
2015-11-16 09:59:57 793
转载 深入浅出LSTM神经网络
根据深度学习三大牛的介绍,LSTM网络已被证明比传统的RNNs更加有效。本文由UCSD研究机器学习理论和应用的博士生Zachary Chase Lipton撰写,用浅显的语言解释了卷积网络的基本知识,并介绍长短期记忆(LSTM)模型。
2015-11-16 09:47:51 662
转载 教授机器视物和理解——Facebook人工智能研究进展
Facebook已建立了一套应用和服务体系,为用户之间相互交流和分享提供了广泛的方式。Facebook AI研究院在图像识别和自然语言理解等领域研究已久,本文主要宣布其目标检测、自然语言理解等方面里程碑式的研究成果。
2015-11-16 09:36:50 566
转载 特征工程 vs. 特征提取
特征对数据挖掘和机器学习效果的重要性意味着特征工程的重要性,然而一般的特征工程也有其局限性,这时候特征提取可能更符合我们的需要。本文详细介绍了特征工程和特征提取如何发挥作用,供读者参考。
2015-11-16 09:30:55 396
转载 卷积神经网络在自然语言处理的应用
CNN作为当今绝大多数计算机视觉系统的核心技术,在图像分类领域做出了巨大贡献。本文从计算机视觉的用例开始,介绍CNN及其在自然语言处理中的优势和发挥的作用。
2015-11-16 09:26:50 1047
转载 深度学习、自然语言处理和表征方法
简介过去几年,深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。虽然结果好,我们也必须思考……它们为什么这么好使?在这篇文章里,我综述一下在自然语言处理(NLP)上应用深度神经网络得到的一些效果极其显著的成果。我希望能提供一个能解释为何深度神经网络好用的理由。我认为这是个非常简练而优美的视角。单隐层神经网络单隐层神经网
2015-11-15 21:03:31 1650
转载 LSTM简介以及数学推导(FULL BPTT)
前段时间看了一些关于LSTM方面的论文,一直准备记录一下学习过程的,因为其他事儿,一直拖到了现在,记忆又快模糊了。现在赶紧补上,本文的组织安排是这样的:先介绍rnn的BPTT所存在的问题,然后介绍最初的LSTM结构,在介绍加了遗忘控制门的,然后是加了peephole connections结构的LSTM,都是按照真实提出的时间顺序来写的。本文相当于把各个论文核心部分简要汇集一下而做的笔记,已提供快
2015-11-14 11:28:46 10931
转载 理解LSTM网络
理解LSTM网络周期神经网络(Recurrent Neural Networks)人类并非每一秒都在从头开始思考问题。当你阅读这篇文章时,你是基于之前的单词来理解每个单词。你并不会把所有内容都抛弃掉,然后从头开始理解。你的思考具有持久性。传统的神经网络并不能做到这一点,这似乎是其一个主要的缺点。例如,想象你要把一部电影里面每个时间点所正在发生的事情进行分类。并不知道传统神经网络怎样才能
2015-11-13 00:52:34 1563
转载 深度学习(Deep Learning),自然语言处理(NLP)及其表达(Representation)
深度学习(Deep Learning),自然语言处理(NLP)及其表达(Representation)简介过去几年中,深度神经网络在模式识别领域占据着统治地位。他们在诸多计算机视觉任务领域,将之前的最好算法彻底击败。语言识别也正朝着这个方向发展。They blew the previous state of the art out of the water for many com
2015-11-13 00:17:08 1633
转载 Theano学习笔记(六)——载入与保存、条件
载入与保存Python标准的保存类别实体并重新载入它们的途径是pickle机制。许多Theano对象可以由此被序列化(或者反序列化),然而pickle的局限性在于,被序列化的类别实例的代码或者数据并没有被同时保存。因此重新载入先前版本的类可能会出问题。因此,需要寻求基于预期保存和重新载入的耗时的不同机制。对于短期(比如临时文件和网络转录),Theano的pickle是可行的。对于长
2015-11-13 00:14:14 575
转载 Theano学习笔记(五)——配置设置与编译模型
配置config模块包含了各种用于修改Theano的属性。在Theano导入时,许多属性都会被检查,而有些属性是只读模式。一般约定,在用户代码内部config模块的属性不应当被修改。Theano的这些属性都有默认值,但是你也可以在你的.theanorc文件里面修改,并且使用THEANO_FLAGS的环境变量进行修改。优先顺序是:1. theano.config.的赋值2.
2015-11-12 23:52:51 858
转载 Theano学习笔记(四)——导数
导数使用T.grad计算。这里使用pp()打印梯度的符号表达式。第3行输出是打印了经过优化器简化的符号梯度表达式,与第1个输出相比确实简单多了。fill((x** TensorConstant{2}), TensorConstant{1.0})指创建一个x**2大小的矩阵,并填充1。importtheano.tensor as Tfromtheano import ppfrom
2015-11-12 23:52:07 507
转载 Theano学习笔记(三)——图结构
图结构(Graph Structures)是了解Theano内在工作原理的基础。Theano编程的核心是用符号占位符把数学关系表示出来。 图结构的组成部分如图实现了这段代码:importtheano.tensor as Tx= T.matrix('x')y= T.matrix('y')z= x + y变量节点(variable nodes)红色表示。变
2015-11-12 23:51:11 679
转载 Theano学习笔记(二)——逻辑回归函数解析
有了前面的准备,可以用Theano实现一个逻辑回归程序,逻辑回归是典型的有监督学习。为了形象,这里我们假设分类任务是区分人与狗的照片。 首先是生成随机数对象importnumpyimporttheanoimporttheano.tensor as Trng= numpy.random数据初始化有400张照片,这些照片不是人的就是狗的。每张照片是28*28=784的
2015-11-12 23:50:21 498
Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本
2017-05-09
tensorflow开发手册_1.0版(中文), 2.0版(英文)
2017-05-07
TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序
2017-05-06
fastjson-1.1.36.jar
2015-11-11
msysGit安装包下载
2015-04-10
hadoop-eclipse-plugin-1.1.2.jar
2014-09-01
apache-flume-1.4.0.tar.gz
2014-08-31
apache-ant-1.9.1-bin.zip
2014-08-31
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人