2015年10月_数据娃掘

12月 11月 10月 09月 08月 07月 05月 04月 03月 02月 01月

转载利用 word2vec 训练的字向量进行中文分词

最近针对之前发表的一篇博文《Deep Learning 在中文分词和词性标注任务中的应用》中的算法做了一个实现，感觉效果还不错。本文主要是将我在程序实现过程中的一些数学细节整理出来，借此优化一下自己的代码，也希望为对此感兴趣的朋友提供点参考。文中重点介绍训练算法中的模型参数计算，以及 Viterbi 解码算法。相关链接：《Deep Learning 在中文

2015-10-29 16:04:19 3258

转载 Google开源基于Deep Learning的word2vec工具

word2vec（word to vector）顾名思义，这是一个将单词转换成向量形式的工具。通过转换，可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。word2vec为计算向量词提供了一种有效的连续词袋（bag-of-words）和skip-gram架构实现，word2vec遵循Apache License 2.0开源协议。如何转换？

2015-10-29 16:02:56 758

转载 Google开源的Deep-Learning项目word2vec处理中文

推荐word2Vec，说的非常强大、有意思。故找了篇文章看，分享下。全文转自http://www.cnblogs.com/wowarsenal/p/3293586.htmlgoogle最近新开放出word2vec项目，该项目使用deep-learning技术将term表示为向量，由此计算term之间的相似度，对term聚类等，该项目也支持phrase的自动识别，以及与term等同的计算

2015-10-29 15:59:41 2625

转载 How to Generate a Good Word Embedding?

来源：http://licstar.net/archives/620自认为这是一篇有用的文章，供大家参考、利用。

2015-10-29 15:33:48 1049 3

原创纽约大学Yann LeCun深度学习

纽约大学Yann LeCun深度学习3小时教学PPT，浓缩几十年研究神经网络的精华http://www.cs.nyu.edu/~yann/talks/lecun-ranzato-icml2013.pdf

2015-10-29 15:17:00 1508

转载从头开始实现神经网络：入门

获取代码：接下来，为了匹配文章的内容，所有的代码都会在Github上以iPython笔记的形式提供。本文中我们会从头实现一个简单的3层神经网络。我们不会推导所有的数学公式，但会给我们正在做的事情一个相对直观的解释。我也会给出你研读所需的资源链接。这里假设你已经比较熟悉微积分和机器学习的概念了。比如，你知道什么是分类和正则化。当然你也应该了解一点优化技巧，如梯度下降是如何工作的。但是即使你对

2015-10-29 15:13:37 2966 1

原创机器学习资源精华-整理收藏

整理收藏的机器学习的大量相关资源，包括开源软件包、基础数据集、以及论文集。http://m.sciencemag.org/site/feature/data/compsci/machine_learning.xhtml

2015-10-29 15:09:37 646

转载机器学习算法基础概念学习总结

1.基础概念：(1) 10折交叉验证：英文名是10-fold cross-validation，用来测试算法的准确性。是常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据，1分作为测试数据，进行试验。每次试验都会得出相应的正确率（或差错率）。10次的结果的正确率（或差错率）的平均值作为对算法精度的估计，一般还需要进行多次10折交叉验证，在求其平均值，对算法的准确性进行估计。(

2015-10-29 14:21:06 1782

转载十张图解释机器学习的基本概念

在解释机器学习的基本概念的时候，我发现自己总是回到有限的几幅图中。以下是我认为最有启发性的条目列表。1. Test and training error: 为什么低训练误差并不总是一件好的事情呢：ESL 图2.11.以模型复杂度为变量的测试及训练错误函数。2. Under and overfitting: 低度拟合或者过度拟合的例子。PRML 图1.4.多项式曲线有各种各样的命令M

2015-10-29 14:17:50 697

转载欧氏距离和cos相似度

机器学习中的欧氏距离和余弦相似度。

2015-10-28 14:05:06 5467

原创文本自动分类

使用机器学习方法做文档的自动分类套路：1.根据每个文件生成该文件的一个特征2.根据特征选择分类器进行文本分类3.(可选)根据 2 步结果，调整参数/特征等示例：数据：搜狗文本分类语料库精简版分类器：朴素贝叶斯编程语言：Python+nltk自然语言处理库+jieba分词库__author__ = 'LiFeiteng'# -*- c

2015-10-28 13:22:09 1192

转载 Deep Learning及NLP(自然语言处理)杂谈--第三部分

本杂谈分为三个部分，此文为第三部分。第三部分这一部分只介绍了一个model，就是在CV领域大名鼎鼎的CNN其他课程大多请的外宾过来讲课，讲得都是DL如何在实际情况下的应用。CNNBasic CNNCNN顾名思义倦积神经网络这个model叫倦积神经网络是因为它提取features的方式和倦积有些类似都是一格一格（或者几格几格）的左右移动。CNN

2015-10-28 13:19:32 735

转载 Deep Learning及NLP(自然语言处理)杂谈--第二部分

本杂谈分为三个部分，此文为第二部分。第二部分总结这一部分主要讲了四个对NLP方面效果比较好的模型：1.GRUs(Gated Feedback Recurrent Neural Networks)　　2.LSTMs(Long Short-Term Memory])　　3.Recurrent neural network　　4.Recursive neural networ

2015-10-28 13:18:30 2460

转载 Deep Learning及NLP(自然语言处理)杂谈--第一部分

本杂谈分为三个部分，此文为第一部分。听完斯坦福大学的CS224d公开课真是受益匪浅，课程安排紧凑而且内容翔实由浅入深，使我不仅对各种神经网络模型有一个认识，还对NLP的原理有了比较深刻的认识。这门课程分为三个部分：第一部分是NLP的基本原理和DL的基础知识，DL的基础知识在ULFDL上也有，只不过ULFDL上讲解的大多是基于图像处理应用方面的，而CS224d主要是基于NLP应用

2015-10-28 13:17:22 1244

原创 Word Embedding的通俗解释

Word Embedding是NLP中最频繁出现的词了，关于word embedding，其实很简单。

2015-10-28 13:01:21 15981 1

转载协方差的意义和计算公式

协方差的意义和计算公式学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集合，依次给出这些概念的公式描述，这些高中学过数学的孩子都应该知道吧，一带而过。均值：标准差：方差：很显然，均值描述的是样本集合的中间点，它告诉我们的信息是很有限的，而标准差给我们描述的则是样本集合的各个

2015-10-27 19:00:41 763

转载特征选择方法-信息增益

信息增益（IG，Information Gain）是很有效的特征选择方法。但凡是特征选择，总是在将特征的重要程度量化之后再进行选择，而如何量化特征的重要性，就成了各种方法间最大的不同。开方检验中使用特征与类别间的关联性来进行这个量化，关联性越强，特征得分越高，该特征越应该被保留。在信息增益中，重要性的衡量标准就是看特征能够为分类系统带来多少信息，带来的信息越多，该特征越重要。因

2015-10-27 16:01:08 2109

转载 Python语言下的机器学习库

Python是最好的编程语言之一，在科学计算中用途广泛：计算机视觉、人工智能、数学、天文等。它同样适用于机器学习也是意料之中的事...

2015-10-26 15:32:18 809

转载 ICML 2015压轴讨论总结：6大神畅谈深度学习的未来

【编者按】2015年ICML的深度学习研讨会，压轴大戏是关于深度学习未来的讨论。基于平衡考虑，组织方分别邀请了来自工业界和学术界的六位专家开展这次圆桌讨论。组织者之一Kyunghyun Cho（Bengio的博士后）在飞机上凭记忆写下本文总结了讨论的内容，他谨慎地表示一些转述不够准确，欢迎大家评论补充。但这篇总结仍然不失借鉴意义。六位专家包括：Yoshua Bengio（蒙特利尔大学），N

2015-10-26 15:28:10 1569

转载从Theano到Lasagne：基于Python的深度学习的框架和库

深度学习是机器学习和人工智能的一种形式，利用堆积在彼此顶部的神经网络的多个隐藏层来尝试形成对数据更深层次的“理解”。最近，深度神经网络以“Deep Dreams”形式在网站中如雨后春笋般出现，或是像谷歌研究原创论文中描述的那样：Inceptionism。在这篇文章中，我们将讨论几个不同的深度学习框架，库以及工具。Python深度学习Theano主页：http://dee

2015-10-26 15:24:59 1324 1

转载诺亚方舟实验室李航：深度学习还局限在复杂的模式识别上

华为技术有限公司诺亚方舟实验室主任李航认为，机器学习、数据挖掘和人工智能的研究，对华为未来的智能通信网络、智能企业管理、智能信息助手三个应用方向很有帮助，比如机器学习对SDN的控制能力、网络优化、人机交互、跨国交流等，都可以发挥很大的作用。诺亚方舟实验室已经将采用深度学习（DL）提升自然语言处理（NLP）的能力（DL4NLP）作为一个研究重点，包括自然语言对话（包括知识问答）、机器翻译和图片搜

2015-10-26 15:22:09 412

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14下安装TP-LINK TL-WN823N无线网卡驱动程序。具体渠道程序，Realtek-RTL8192EU-driver.tar.gz

2017-05-09

tensorflow开发手册_1.0版（中文）, 2.0版（英文）

tensorflow开发手册_1.0版（中文）_201608； tensorflow开发手册_2.0版（英文）_201705；

2017-05-07

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

迷你型无线USB网卡，TP-LINK，TL-WN823N，Ubuntu驱动 Bus 003 Device 002: ID 0bda:818b Realtek Semiconductor Corp

2017-05-06

SpringMvc_RestfullAPI

使用SpringMvc开发的RestfullAPI，完整demo，可以直接利用。

2015-11-11

数据挖掘比赛入门_2015

这个是数据挖掘比赛的专业知识技巧整理的文档，是以去年阿里天猫推荐比赛为例，希望能对大家有帮助。

2015-11-11

计算机网络(第4版)课后习题答案

《计算机网络（第4版）》是2011年出版的图书，作者是Andrew S.Tanenbaum。计算机网络第四版习题答案(中文版).

2015-11-11

fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。主要特点：快速FAST (比其它任何基于Java的解析器和生成器更快，包括jackson）强大（支持普通JDK类包括任意Java Bean Class、Collection、Map、Date或enum）零依赖（没有依赖其它任何类库除了JDK）示例代码： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 import com.alibaba.fastjson.JSON; Group group = new Group(); group.setId(0L); group.setName("admin"); User guestUser = new User(); guestUser.setId(2L); guestUser.setName("guest"); User rootUser = new User(); rootUser.setId(3L); rootUser.setName("root"); group.getUsers().add(guestUser); group.getUsers().add(rootUser); String jsonString = JSON.toJSONString(group); System.out.println(jsonString);

2015-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

下载 最新简体中文停用词表 stopwords.txt

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14+CUDA8.0+cudnn傻瓜式安装手册

tensorflow开发手册_1.0版（中文）, 2.0版（英文）

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

SpringMvc_RestfullAPI

数据挖掘比赛入门_2015

电子商务系统分析与设计(第2版)课件PPT

计算机网络(第4版)课后习题答案

fastjson-1.1.36.jar

msysGit安装包下载

apache-maven-2.2.1

hadoop-eclipse-plugin-1.1.2.jar

apache-flume-1.4.0.tar.gz

apache-ant-1.9.1-bin.zip

ZendOptimizer-3.3.3-Windows-i386.zip

iisxp-v5.1.zip

mysqlcc-0.9.4-win32.zip

如何在vs2008中添加lib 静态库使用

6个简单而有用的VBA自定义函数

空空如也

下载最新简体中文停用词表 stopwords.txt