2016年01月_数据娃掘

【编者按】：随着互联网技术的迅速发展与普及，如何对浩如烟海的数据进行分类、组织和管理，已经成为一个具有重要用途的研究课题。而在这些数据中，文本数据又是数量最大的一类。以统计理论为基础，利用机器学习算法对已知的训练数据做统计分析从而获得规律，再运用规律对未知数据做预测分析，已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本大数据的机器学习自动分类方法》系列文章，为您详细阐述机器学习文本分类的基本方法与处理流程。

2016-01-26 11:11:43 11621

转载文本数据的机器学习自动分类方法(上)

随着互联网技术的迅速发展与普及，如何对浩如烟海的数据进行分类、组织和管理，已经成为一个具有重要用途的研究课题。而在这些数据中，文本数据又是数量最大的一类。以统计理论为基础，利用机器学习算法对已知的训练数据做统计分析从而获得规律，再运用规律对未知数据做预测分析，已成为文本分类领域的主流。InfoQ联合“达观数据“共同策划了《文本数据的机器学习自动分类方法》系列文章，为您详细阐述机器学习文本分类的基本方法与处理流程。

2016-01-26 11:09:52 90330 3

转载深度学习入门，以及它在物联网和智慧城市中的角色

这篇文章主要讲述一个正在演化的论题，主要解释深度学习的基础，以及深度学习算法如何应用于物联网及智慧城市等。

2016-01-26 11:06:26 3815

转载文本挖掘

文本挖掘是抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值知识，并且利用这些知识更好地组织信息的过程。1998年底，国家重点研究发展规划首批实施项目中明确指出，文本挖掘是“图像、语言、自然语言理解与知识挖掘”中的重要内容。

2016-01-25 14:26:32 42969 3

转载语义分析若干知识

语义分析，本文指运用各种机器学习方法，挖掘与学习文本、图片等的深层次概念。wikipedia上的解释：In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or images)。

2016-01-25 14:14:25 14894 1

转载什么是词干化处理

在NLP中，我们对一句话或一个文档分词之后，一般要进行词干化处理。词干化处理就是把一些名词的复数去掉，动词的不同时态去掉等等类似的处理。

2016-01-25 14:10:37 1629

转载入门句法分析

FudanNLP 提供了依存句法分析功能。对应的类为 edu.fudan.nlp.parser.dep.JointParser。FudanNLP 的依存关系类型包括：核心词、主语、补语、宾语、定语、状语、并列、同位语、数量、介宾、连动、疑问连动、兼语、关联、重复、标点、的字结构、地字结构、得字结构、语气、时态等。

2016-01-25 14:09:40 3517

转载短文本聚类方法

短文本聚类的研究在自动问答系统中有着比较重要的意义，因为交互式问答系统中的问题实际上就是一个特殊形式的短文本。

2016-01-25 14:08:55 5344 2

转载 NLP分析技术的三个层面

NLP分析技术大致分为三个层面：词法分析、句法分析和语义分析。

2016-01-25 14:08:00 9209 1

转载算法&模型

在行业设备大数据平台建设中，势必要用到大数据技术，而大数据技术中，机器学习与数据挖掘算法是重要的一环，我们通过这些算法与模型对设备的故障进行监控与预测，对设备技改需求进行预测，对设备采购需求进行预测以及创建各种模型与算法设备标签。下面我们对一些常用的算法与模型进行简要介绍。

2016-01-25 14:02:53 4643

转载 Windows下使用Word2vec继续词向量训练

word2vec是Google在2013年提出的一款开源工具，其是一个Deep Learning(深度学习)模型（实际上该模型层次较浅，严格上还不能算是深层模型，如果word2vec上层再套一层与具体应用相关的输出层，如Softmax，便更像是一个深层模型），它将词表征成实数值向量，采用CBOW（Continuous Bag-Of-Words Model，连续词袋模型）和Skip-Gram(Continuous Skip-GramModel)两种模型。具体原理，网上有很多。本文是在windows下使用wo

2016-01-25 14:01:45 938

转载前向型神经网络之BPNN(附源码)

本文主要介绍前向型神经网络之BPNN，并附python源码。

2016-01-25 13:59:38 1406

转载机器学习算法汇总：人工神经网络、深度学习及其它

机器学习的算法很多。很多时候困惑人们都是，很多算法是一类算法，而有些算法又是从其他算法中延伸出来的。这里，我们从两个方面来给大家介绍，第一个方面是学习的方式，第二个方面是算法的类似性。本文来自IT经理网。

2016-01-25 13:24:41 5848 1

转载深度学习概述：从感知机到深度网络

本文译自一篇博客，作者行文较随意，我尽量按原意翻译，但作者所介绍的知识还是非常好的，包括例子的选择、理论的介绍都很到位，由浅入深.

2016-01-25 13:22:25 731

转载卷积神经网络（Convolutional Neural Network）学习资料

卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络（Convolutional Neural Networks-简称CNN）。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的

2016-01-25 13:16:39 1267

转载人工神经网络的深入理解

人工神经网络就是模拟人脑神经网络，这种网络依靠系统的复杂程度，通过调整内部大量节点之间相互连接的关系，从而达到处理信息的目的。使得具有学习、联想记忆、综合等能力，比如语音、图像的识别、理解，知识的处理，组合优化计算等一系列本质上非计算的问题。

2016-01-25 13:13:53 2846

转载神经网络Tips 和Tricks

本文是关于神经网络Tips 和Tricks的文章。

2016-01-25 13:12:30 545

转载机器学习模型评价(Evaluating Machine Learning Models)-主要概念与陷阱

本文主要解释一些关于机器学习模型评价的主要概念，与评价中可能会遇到的一些陷阱。如训练集-验证集二划分校验（Hold-out validation）、交叉校验（Cross-validation）、超参数调优(hyperparameter tuning)等。

2016-01-25 13:11:13 1012

转载在分类中如何处理训练集中不平衡问题

在很多机器学习任务中，训练集中可能会存在某个或某些类别下的样本数远大于另一些类别下的样本数目。即类别不平衡，为了使得学习达到更好的效果，因此需要解决该类别不平衡问题。

2016-01-25 13:08:41 1499

转载机器学习中防止过拟合的处理方法

在进行数据挖掘或者机器学习模型建立的时候，因为在统计学习中，假设数据满足独立同分布（i.i.d，independently and identically distributed），即当前已产生的数据可以对未来的数据进行推测与模拟，因此都是使用历史数据建立模型，即使用已经产生的数据去训练，然后使用该模型去拟合未来的数据。但是一般独立同分布的假设往往不成立，即数据的分布可能会发生变化（distribution drift），并且可能当前的数据量过少，不足以对整个数据集进行分布估计，因此往往需要防止模型过拟合，

2016-01-25 13:07:40 646

转载推荐!国外程序员整理的机器学习资源大全

本列表选编了一些机器学习领域牛B的框架、库以及软件（按编程语言排序）。

2016-01-23 15:25:23 954

转载利用word分词来计算文本相似度

word分词提供了多种文本相似度计算方式：方式一：余弦相似度，通过计算两个向量的夹角余弦值来评估他们的相似度实现类：org.apdplat.word.analysis.CosineTextSimilarity用法如下：?12345678910111213141516S

2016-01-20 11:33:48 2708

转载 MyEclipse 2015优化技巧

MyEclipse 2015优化速度方案仍然主要有这么几个方面：去除无需加载的模块、取消冗余的配置、去除不必要的检查、关闭更新。

2016-01-11 18:18:03 436

转载 Eclipse 编译StanfordNLP

1、源码最新下载地址：http://nlp.stanford.edu/software/index.shtml; 2、解压stanford-corenlp.zip; 3、打开Eclipse新建JAVA项目stanford-corenlp，然后在项目根目录创建文夹名"lib"; 4、将步骤2解压出的*.jar复制到刚才新建lib目录中；stanford-corenlp-3.3

2016-01-11 00:17:52 1261 1

转载 Stanford CoreNLP开源项目的3种编译和运行方式[2]

4. 项目源码在linux控制台下的编译与运行第3节中所述的操作其实已经可以满足大部分程序员的要求了。但是还有一小部分程序员，他们要把项目打好jar包部署到linux的服务器上。部署的过程中有可能要在linux服务器上当场改代码。这时候有两种解决方式：1.返回开发环境，用可视化的编辑软件修改代码后重新编译，在完成打包部署过程。2.直接在linux服务器上用vi修改代码，改完

2016-01-11 00:16:45 2043 1

转载 Stanford CoreNLP开源项目的3种编译和运行方式[1]

Stanford CoreNLP开源项目的3种编译和运行方式1. Stanford CoreNLP简介Stanford CoreNLP, integrating our NER, POS tagger, and parser with a new coreference system 官网上是如上介绍Stanford CoreNLP的。它是Stan

2016-01-11 00:08:43 2361

转载 Stanford NLP Chinese(中文)的使用

Stanford NLP tools提供了处理中文的三个工具，分别是分词、Parser；具体参考：http://nlp.stanford.edu/software/parser-faq.shtml#o 1.分词 Chinese segmenter下载：http://nlp.stanford.edu/software/Stanford Chinese Word Segmenter

2016-01-11 00:00:03 19637 1

转载 Eclipse下使用Stanford CoreNLP的方法

关于Eclipse下使用Stanford CoreNLP的方法。详细源码下载地址：CoreNLP官网。关于CoreNLP详细内容：http://stanfordnlp.github.io/CoreNLP/

2016-01-10 23:51:51 3729

转载 Java神经网络的框架Neuroph 2.5 with Neuroph Studio 测试

Neuroph是一个轻量级的Java神经网络的框架，可以用来模拟常见的神经网络架构。

2016-01-08 18:26:42 3626

转载利用Theano理解深度学习——Multilayer Perceptron

一、多层感知机MLP1、MLP概述对于含有单个隐含层的多层感知机(single-hidden-layer Multi-Layer Perceptron, MLP)，可以将其看成是一个特殊的Logistic回归分类器，这个特殊的Logistic回归分类器首先通过一个非线性变换Φ(non-linear transformation)对样本的输入进行非线性变换，然后将变换后的值作为Logis

2016-01-02 20:12:13 2387

下载最新简体中文停用词表 stopwords.txt

最新简体中文常见停用词表：stopwords.txt

2017-05-16

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14下安装TP-LINK TL-WN823N无线网卡驱动程序。具体渠道程序，Realtek-RTL8192EU-driver.tar.gz

2017-05-09

Ubuntu14+CUDA8.0+cudnn傻瓜式安装手册

2017-05-07

tensorflow开发手册_1.0版（中文）, 2.0版（英文）

tensorflow开发手册_1.0版（中文）_201608； tensorflow开发手册_2.0版（英文）_201705；

2017-05-07

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

迷你型无线USB网卡，TP-LINK，TL-WN823N，Ubuntu驱动 Bus 003 Device 002: ID 0bda:818b Realtek Semiconductor Corp

2017-05-06

SpringMvc_RestfullAPI

使用SpringMvc开发的RestfullAPI，完整demo，可以直接利用。

2015-11-11

数据挖掘比赛入门_2015

这个是数据挖掘比赛的专业知识技巧整理的文档，是以去年阿里天猫推荐比赛为例，希望能对大家有帮助。

2015-11-11

电子商务系统分析与设计(第2版)课件PPT

电子商务系统分析与设计(第二版)的课件PPT文档。

2015-11-11

计算机网络(第4版)课后习题答案

《计算机网络（第4版）》是2011年出版的图书，作者是Andrew S.Tanenbaum。计算机网络第四版习题答案(中文版).

2015-11-11

fastjson-1.1.36.jar

fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。主要特点：快速FAST (比其它任何基于Java的解析器和生成器更快，包括jackson）强大（支持普通JDK类包括任意Java Bean Class、Collection、Map、Date或enum）零依赖（没有依赖其它任何类库除了JDK）示例代码： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 import com.alibaba.fastjson.JSON; Group group = new Group(); group.setId(0L); group.setName("admin"); User guestUser = new User(); guestUser.setId(2L); guestUser.setName("guest"); User rootUser = new User(); rootUser.setId(3L); rootUser.setName("root"); group.getUsers().add(guestUser); group.getUsers().add(rootUser); String jsonString = JSON.toJSONString(group); System.out.println(jsonString);

2015-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

下载 最新简体中文停用词表 stopwords.txt

Ubuntu14下安装TP-LINK 无线网卡驱动-shell安装包版本

Ubuntu14+CUDA8.0+cudnn傻瓜式安装手册

tensorflow开发手册_1.0版（中文）, 2.0版（英文）

TP-LINK TL-WN823N chipset (0bda:818b) Ubuntu驱动程序

SpringMvc_RestfullAPI

数据挖掘比赛入门_2015

电子商务系统分析与设计(第2版)课件PPT

计算机网络(第4版)课后习题答案

fastjson-1.1.36.jar

msysGit安装包下载

apache-maven-2.2.1

hadoop-eclipse-plugin-1.1.2.jar

apache-flume-1.4.0.tar.gz

apache-ant-1.9.1-bin.zip

ZendOptimizer-3.3.3-Windows-i386.zip

iisxp-v5.1.zip

mysqlcc-0.9.4-win32.zip

如何在vs2008中添加lib 静态库使用

6个简单而有用的VBA自定义函数

空空如也

下载最新简体中文停用词表 stopwords.txt