2015年11月_数据娃掘

12月 11月 10月 09月 08月 07月 05月 04月 03月 02月 01月

转载估计概率构造短语翻译表

经过第三步抽取短语后，获得基于短语系统使用的翻译短语对，而接下来的第四步就是短语翻译表概率估计，它的作用是对翻译短语对的正确性进行合理的评估。在上一节，我们得到了短语对集合，如下图所示：在这里，我们估计概率主要进行四个分数的计算，即双向短语翻译概率(正向:“源语言->目标语言”方向；反向:“目标语言->源语言”方向 )、双向词汇化权重。首先，

2015-11-21 16:42:44 870

转载文本相似度算法

文本相似度算法1.信息检索中的重要发明TF-IDF1.1TFTerm frequency即关键词词频，是指一篇文章中关键词出现的频率，比如在一篇M个词的文章中有N个该关键词，则（公式1.1-1）为该关键词在这篇文章中的词频。1.2IDFInverse document frequency指逆向文本频率，是用于衡量关键词权重的指数，由公式（公式1.2-1）计算而得

2015-11-21 16:40:40 3233

转载基于深层神经网络的命名实体识别技术

命名实体识别是从文本中识别具有特定类别的实体，例如人名、地名、机构名等。命名实体识别是信息检索，查询分类，自动问答等问题的基础任务，其效果直接影响后续处理的效果，因此是自然语言处理研究的一个基础问题。引言命名实体识别（Named Entity Recognition，后文简称NER）是指从文本中识别具有特定类别的实体（通常是名词），例如人名、地名、机构名、专有名词等。命名实体识

2015-11-21 16:38:13 1257

转载话说正确率、召回率和F值

正确率、召回率和F值是在鱼龙混杂的环境中，选出目标的重要评价指标，本文就针对这三个指标得瑟得瑟。不妨看看这些指标的定义先：正确率 = 正确识别的个体总数 / 识别出的个体总数召回率 = 正确识别的个体总数 / 测试集中存在的个体总数F值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) 不妨举这样一个例子：某池塘有1400条鲤鱼，3

2015-11-21 16:32:41 1923

转载神经网络训练中的训练集、验证集以及测试集合

1：在NN训练中我们很常用的是训练集合以及测试集合，在训练集合上训练模型（我个人认为模型就是训练的方法以及对应的参数值，更偏重于参数值吧），训练好之后拿到测试集合上验证模型的泛华（就是该模型可以拿去实战的效果）的能力。2：但是对于上述情况，举个例子，比如是在训练一个多层网络，我们用类似minFUNC的方法来训练，那么这个优化包会直接根据我们的输入直接迭代出来一个很好地结果了，此时模型就

2015-11-21 16:30:14 11268 1

转载神经网络编程入门

本文主要内容包括： (1) 介绍神经网络基本原理，(2) AForge.NET实现前向神经网络的方法，(3) Matlab实现前向神经网络的方法。第0节、引例本文以Fisher的Iris数据集作为神经网络程序的测试数据集。Iris数据集可以在http://en.wikipedia.org/wiki/Iris_flower_data_set 找到。这里

2015-11-21 16:28:25 1503

转载词向量和语言模型

最近在看词向量相关的东西，需要看的相关论文很多，自己又没能抽出许多时间来细细品读。简单的读几篇又遇到了许多不懂的地方。发现了一篇很不错的blog，甚是欢喜，分享一下，希望对想看相关内容的朋友有所帮助。

2015-11-21 16:25:16 1114

转载深度译文：机器学习那些事关于自己的理解

非常好的机器学习的译文，记录下，每次看了都有不同收获。写点关于自己的理解。

2015-11-19 11:31:32 2367

最近打算稍微系统的学习下deep learing的一些理论知识，打算采用Andrew Ng的网页教程UFLDL Tutorial，据说这个教程写得浅显易懂，也不太长。不过在这这之前还是复习下machine learning的基础知识，见网页：http://openclassroom.stanford.edu/MainFolder/CoursePage.php?course=DeepLearning。内容其实很短，每小节就那么几分钟，且讲得非常棒。

2015-11-19 11:30:25 563

转载初识机器学习算法有哪些？

机器学习无疑是现在数据分析领域的一个重要内容，凡事从事IT工作领域的人都在平时的工作中或多或少的会用到机器学习的算法。机器学习有很多算法，不过大的方面可分为两类：一个是学习的方式，一个是算法的类似性。学习方式：根据数据类型的不同，对一个问题的建模有不同的方式。在机器学习或者人工智能领域，人们首先会考虑算法的学习方式。在机器学习领域，有几种主要的学习方式。将算法按照学习方式分类是

2015-11-19 11:23:38 785

原创机器学习方面资源整理

经典的机器学习方面源代码库、资源等等，非常全数据挖掘，计算机视觉，模式识别，信息检索相关领域都适用的了。

2015-11-19 11:17:02 1108

原创 python的pip命令常用操作

pip基本命令

2015-11-19 11:15:41 2252

转载 python自然语言之nlck环境搭建初步

nltk是一个非常著名的python自然语言库,记录下学习过程。

2015-11-19 11:14:21 861

转载 nltk的简单应用

关于nltk的一个简单应用。

2015-11-19 11:12:24 1762

转载 gensim-5个学习阶段

最近花了点时间学习nlp--实际只是学习使用nltk和伴随它出现的gensim。也许nlp在国内普及的时间还不是很长，绝大多数资料都来自nltk和gensim的官网，国内最多的例子止于演示一下nltk分词/划分词性，有点实效的是一篇用于比较Coursera上课程的相似度的文章，算是我入门学习的一个灯塔(一开始没有nlp的基础，只能先从更好理解的中文内容开始 =_=! )，不过其中也没有很好的结合语料库，算法也只有LSI的演示，文章内容和代码也欠缺更好的整理(不是在说作者坏话，但的确有不少改进空间。

2015-11-19 11:08:01 1653

转载 nltk-比较英文文档相似度-完整实例

用nltk完成文档相似度比较的实例，算是nltk/nlp学习的入门例子

2015-11-19 11:02:31 3004 1

转载 nltk-构建和使用语料库-可用于小说的推荐-完整实例

将构建语料库和使用语料库两个步骤拆分开，适用于更大数据量的场景：语料库提前处理好，要使用时直接加载。

2015-11-19 10:59:40 4465 7

转载 nltk-比较中文文档相似度-完整实例

nltk-比较中文文档相似度-完整实例

2015-11-19 10:57:35 2629

转载深度学习：实际问题解决指南

深度学习拥有解决大部分机器学习和人工智能领域问题的潜力，可以用来解决诸如语音识别、三维物体识别和自然语言处理等领域的难题。本文介绍了深度学习在解决实际问题中存在的优势与缺点。

2015-11-19 10:37:28 5432

转载 Deep Learning（深度学习）Convolutional Neural Networks卷积神经网络

Convolutional Neural Networks卷积神经网络卷积神经网络是人工神经网络的一种，已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维

2015-11-16 10:09:34 2914

转载 deep learning 卷积神经网络的实现（Convolution Neural Networks）

本节将会讲到卷积神经网络的实现。说到卷积神经网络，在图像识别和目标检测方面已经取得了不错的效果，为什么要叫做卷积神经网络呢？主要是因为在特征提取的时候，输入图像会通过卷积核对原始图像进行特征抽取，然后再通过神经网络进一步进行特征提取，也可以称为降维，再通过分类器得到分类或者识别的结果，斯坦福大学研究人员通过卷积神经网络训练猫的图像，在YouTube视频中找到了关于猫的视频，这也是一个强大的应用。此

2015-11-16 10:08:40 2643

转载「深度神经网络」（deep neural network）具体工作流程

多层的好处是可以用较少的参数表示复杂的函数。

2015-11-16 10:06:27 1070

转载 KDnuggets热门深度学习工具排行：Pylearn2 居首，Caffe第三

如今深度学习是AI和机器学习领域最热门的学习趋势。我们来审查为深度学习而开发的软件，包括Caffe，CUDA convnet，Deeplearning4j，Pylearn2，Theano和Torch。

2015-11-16 10:05:34 590

转载深度学习为何起作用——关键解析和鞍点

机器学习系统迈向人工智能的道路上，我们需要学习，泛化，避免维度灾难的方法，以及解决潜在解释因素的能力。本文从分布式表示、深度架构和易避免鞍点的理论驱动力三个方面对深度学习展开讨论。

2015-11-16 10:01:36 1244

转载深度学习在自然语言处理的应用

在深度学习出现之前，文字所包含的意思是通过人为设计的符号和结构传达给计算机的。本文讨论了深度学习如何用向量来表示语义，如何更灵活地表示向量，如何用向量编码的语义去完成翻译，以及有待改进的地方。

2015-11-16 09:59:57 793

转载深入浅出LSTM神经网络

根据深度学习三大牛的介绍，LSTM网络已被证明比传统的RNNs更加有效。本文由UCSD研究机器学习理论和应用的博士生Zachary Chase Lipton撰写，用浅显的语言解释了卷积网络的基本知识，并介绍长短期记忆（LSTM）模型。

2015-11-16 09:47:51 662

转载教授机器视物和理解——Facebook人工智能研究进展

Facebook已建立了一套应用和服务体系，为用户之间相互交流和分享提供了广泛的方式。Facebook AI研究院在图像识别和自然语言理解等领域研究已久，本文主要宣布其目标检测、自然语言理解等方面里程碑式的研究成果。

2015-11-16 09:36:50 566

转载特征工程 vs. 特征提取

特征对数据挖掘和机器学习效果的重要性意味着特征工程的重要性，然而一般的特征工程也有其局限性，这时候特征提取可能更符合我们的需要。本文详细介绍了特征工程和特征提取如何发挥作用，供读者参考。

2015-11-16 09:30:55 396

转载卷积神经网络在自然语言处理的应用

CNN作为当今绝大多数计算机视觉系统的核心技术，在图像分类领域做出了巨大贡献。本文从计算机视觉的用例开始，介绍CNN及其在自然语言处理中的优势和发挥的作用。

2015-11-16 09:26:50 1047

转载深度学习、自然语言处理和表征方法

简介过去几年，深度神经网络在模式识别中占绝对主流。它们在许多计算机视觉任务中完爆之前的顶尖算法。在语音识别上也有这个趋势了。虽然结果好，我们也必须思考……它们为什么这么好使？在这篇文章里，我综述一下在自然语言处理（NLP）上应用深度神经网络得到的一些效果极其显著的成果。我希望能提供一个能解释为何深度神经网络好用的理由。我认为这是个非常简练而优美的视角。单隐层神经网络单隐层神经网

2015-11-15 21:03:31 1650

原创常用NLP知名研究机构

常用的NLP知名研究机构

2015-11-15 10:35:48 4604

转载 LSTM简介以及数学推导(FULL BPTT)

前段时间看了一些关于LSTM方面的论文，一直准备记录一下学习过程的，因为其他事儿，一直拖到了现在，记忆又快模糊了。现在赶紧补上，本文的组织安排是这样的：先介绍rnn的BPTT所存在的问题，然后介绍最初的LSTM结构，在介绍加了遗忘控制门的，然后是加了peephole connections结构的LSTM，都是按照真实提出的时间顺序来写的。本文相当于把各个论文核心部分简要汇集一下而做的笔记，已提供快

2015-11-14 11:28:46 10929

转载理解LSTM网络

理解LSTM网络周期神经网络（Recurrent Neural Networks）人类并非每一秒都在从头开始思考问题。当你阅读这篇文章时，你是基于之前的单词来理解每个单词。你并不会把所有内容都抛弃掉，然后从头开始理解。你的思考具有持久性。传统的神经网络并不能做到这一点，这似乎是其一个主要的缺点。例如，想象你要把一部电影里面每个时间点所正在发生的事情进行分类。并不知道传统神经网络怎样才能

2015-11-13 00:52:34 1563

转载深度学习（Deep Learning），自然语言处理（NLP）及其表达（Representation）

深度学习（Deep Learning），自然语言处理（NLP）及其表达（Representation）简介过去几年中，深度神经网络在模式识别领域占据着统治地位。他们在诸多计算机视觉任务领域，将之前的最好算法彻底击败。语言识别也正朝着这个方向发展。They blew the previous state of the art out of the water for many com

2015-11-13 00:17:08 1633

转载 Theano学习笔记（六）——载入与保存、条件

载入与保存Python标准的保存类别实体并重新载入它们的途径是pickle机制。许多Theano对象可以由此被序列化（或者反序列化），然而pickle的局限性在于，被序列化的类别实例的代码或者数据并没有被同时保存。因此重新载入先前版本的类可能会出问题。因此，需要寻求基于预期保存和重新载入的耗时的不同机制。对于短期（比如临时文件和网络转录），Theano的pickle是可行的。对于长

2015-11-13 00:14:14 575

转载 Theano学习笔记（五）——配置设置与编译模型

配置config模块包含了各种用于修改Theano的属性。在Theano导入时，许多属性都会被检查，而有些属性是只读模式。一般约定，在用户代码内部config模块的属性不应当被修改。Theano的这些属性都有默认值，但是你也可以在你的.theanorc文件里面修改，并且使用THEANO_FLAGS的环境变量进行修改。优先顺序是：1. theano.config.的赋值2.

2015-11-12 23:52:51 858

转载 Theano学习笔记（四）——导数

导数使用T.grad计算。这里使用pp()打印梯度的符号表达式。第3行输出是打印了经过优化器简化的符号梯度表达式，与第1个输出相比确实简单多了。fill((x** TensorConstant{2}), TensorConstant{1.0})指创建一个x**2大小的矩阵，并填充1。importtheano.tensor as Tfromtheano import ppfrom

2015-11-12 23:52:07 507

转载 Theano学习笔记（三）——图结构

图结构（Graph Structures）是了解Theano内在工作原理的基础。Theano编程的核心是用符号占位符把数学关系表示出来。图结构的组成部分如图实现了这段代码：importtheano.tensor as Tx= T.matrix('x')y= T.matrix('y')z= x + y变量节点（variable nodes）红色表示。变

2015-11-12 23:51:11 679

转载 Theano学习笔记（二）——逻辑回归函数解析

有了前面的准备，可以用Theano实现一个逻辑回归程序，逻辑回归是典型的有监督学习。为了形象，这里我们假设分类任务是区分人与狗的照片。首先是生成随机数对象importnumpyimporttheanoimporttheano.tensor as Trng= numpy.random数据初始化有400张照片，这些照片不是人的就是狗的。每张照片是28*28=784的

2015-11-12 23:50:21 498

转载 Theano学习笔记（一）——代数

连载theano的学习教程

2015-11-12 23:48:02 586

下载最新简体中文停用词表 stopwords.txt

最新简体中文常见停用词表：stopwords.txt

2017-05-16

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14下安装TP-LINK TL-WN823N无线网卡驱动程序。具体渠道程序，Realtek-RTL8192EU-driver.tar.gz

2017-05-09

Ubuntu14+CUDA8.0+cudnn傻瓜式安装手册

2017-05-07

tensorflow开发手册_1.0版（中文）, 2.0版（英文）

tensorflow开发手册_1.0版（中文）_201608； tensorflow开发手册_2.0版（英文）_201705；

2017-05-07

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

迷你型无线USB网卡，TP-LINK，TL-WN823N，Ubuntu驱动 Bus 003 Device 002: ID 0bda:818b Realtek Semiconductor Corp

2017-05-06

SpringMvc_RestfullAPI

使用SpringMvc开发的RestfullAPI，完整demo，可以直接利用。

2015-11-11

数据挖掘比赛入门_2015

这个是数据挖掘比赛的专业知识技巧整理的文档，是以去年阿里天猫推荐比赛为例，希望能对大家有帮助。

2015-11-11

电子商务系统分析与设计(第2版)课件PPT

电子商务系统分析与设计(第二版)的课件PPT文档。

2015-11-11

计算机网络(第4版)课后习题答案

《计算机网络（第4版）》是2011年出版的图书，作者是Andrew S.Tanenbaum。计算机网络第四版习题答案(中文版).

2015-11-11

fastjson-1.1.36.jar

fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。主要特点：快速FAST (比其它任何基于Java的解析器和生成器更快，包括jackson）强大（支持普通JDK类包括任意Java Bean Class、Collection、Map、Date或enum）零依赖（没有依赖其它任何类库除了JDK）示例代码： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 import com.alibaba.fastjson.JSON; Group group = new Group(); group.setId(0L); group.setName("admin"); User guestUser = new User(); guestUser.setId(2L); guestUser.setName("guest"); User rootUser = new User(); rootUser.setId(3L); rootUser.setName("root"); group.getUsers().add(guestUser); group.getUsers().add(rootUser); String jsonString = JSON.toJSONString(group); System.out.println(jsonString);

2015-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

下载 最新简体中文停用词表 stopwords.txt

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14+CUDA8.0+cudnn傻瓜式安装手册

tensorflow开发手册_1.0版（中文）, 2.0版（英文）

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

SpringMvc_RestfullAPI

数据挖掘比赛入门_2015

电子商务系统分析与设计(第2版)课件PPT

计算机网络(第4版)课后习题答案

fastjson-1.1.36.jar

msysGit安装包下载

apache-maven-2.2.1

hadoop-eclipse-plugin-1.1.2.jar

apache-flume-1.4.0.tar.gz

apache-ant-1.9.1-bin.zip

ZendOptimizer-3.3.3-Windows-i386.zip

iisxp-v5.1.zip

mysqlcc-0.9.4-win32.zip

如何在vs2008中添加lib 静态库使用

6个简单而有用的VBA自定义函数

空空如也

下载最新简体中文停用词表 stopwords.txt