2016年01月_小飞侠-2

原创语义分析和文本分析区别

1,语义分析是编译过程的一个逻辑阶段，语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查，进行类型审查。语义分析是审查源程序有无语义错误，为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查，审查每个算符是否具有语言规范允许的运算对象，当不符合语言规范时，编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些某些程序规定运算对象可被强制，那么当二目

2016-01-12 10:20:15 5684

1,语义分析是编译过程的一个逻辑阶段，语义分析的任务是对结构上正确的源程序进行上下文有关性质的审查，进行类型审查。语义分析是审查源程序有无语义错误，为代码生成阶段收集类型信息。比如语义分析的一个工作是进行类型审查，审查每个算符是否具有语言规范允许的运算对象，当不符合语言规范时，编译程序应报告错误。如有的编译程序要对实数用作数组下标的情况报告错误。又比如某些某些程序规定运算对象可被强制，那么当二目...

2016-01-12 10:20:00 2431

原创向量空间模型(VSM)在文档相似度计算上的简单介绍

http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx向量空间模型（VSM：Vector space model）是最常用的相似度计算模型，在自然语言处理中有着广泛的应用，这里简单介绍一下其在进行文档间相似度计算时的原理。假设共有十个词：w1，w2，......，w10，而共有三篇文章，d1，d2和d3。统计所得的

2016-01-11 17:04:45 3066

向量空间模型(VSM)在文档相似度计算上的简单介绍

http://blog.csdn.net/Felomeng/archive/2009/03/25/4023990.aspx向量空间模型（VSM：Vector space model）是最常用的相似度计算模型，在自然语言处理中有着广泛的应用，这里简单介绍一下其在进行文档间相似度计算时的原理。假设共有十个词：w1，w2，......，w10，而共有三篇文章，d1，d2和d3。统计所...

2016-01-11 17:04:00 206

原创 svm学后理解

随着oec项目4版本的开发，学习svm算法也有段时间了，对于其理解做些总结。首先svm是有监督的分类回归算法，对于自动识别分类效果比较好，具体流程如下：1.对语料每个分类打标签，并对每个分类下面的txt文本进行分词。分词器有好多种，自己可以选择适合自己的，我用过mmseg4j，ansj和中科院三种分词器，其中ansj对词的标注和自动学习词性方面最好。2.去停用词。3.根据你想用的提

2016-01-11 16:32:59 408

svm学后理解

随着oec项目4版本的开发，学习svm算法也有段时间了，对于其理解做些总结。首先svm是有监督的分类回归算法，对于自动识别分类效果比较好，具体流程如下：1.对语料每个分类打标签，并对每个分类下面的txt文本进行分词。分词器有好多种，自己可以选择适合自己的，我用过mmseg4j，ansj和中科院三种分词器，其中ansj对词的标注和自动学习词性方面最好。2.去停用词。3.根据你想用的提...

2016-01-11 16:32:00 82

转载使用Weka进行数据挖掘

1.简介数据挖掘、机器学习这些字眼，在一些人看来，是门槛很高的东西。诚然，如果做算法实现甚至算法优化，确实需要很多背景知识。但事实是，绝大多数数据挖掘工程师，不需要去做算法层面的东西。他们的精力，集中在特征提取，算法选择和参数调优上。那么，一个可以方便地提供这些功能的工具，便是十分必要的了。而weka，便是数据挖掘工具中的佼佼者。Weka的全名是怀卡托智能分析环境（Waikato Enviro

2016-01-08 15:47:43 1742

使用Weka进行数据挖掘

1.简介数据挖掘、机器学习这些字眼，在一些人看来，是门槛很高的东西。诚然，如果做算法实现甚至算法优化，确实需要很多背景知识。但事实是，绝大多数数据挖掘工程师，不需要去做算法层面的东西。他们的精力，集中在特征提取，算法选择和参数调优上。那么，一个可以方便地提供这些功能的工具，便是十分必要的了。而weka，便是数据挖掘工具中的佼佼者。Weka的全名是怀卡托智能分析环境（Waikato Environm...

2016-01-08 15:47:00 409

转载 Weka学习四（属性选择）

在这一节我们看看属性选择。在数据挖掘的研究中，通常要通过距离来计算样本之间的距离，而样本距离是通过属性值来计算的。我们知道对于不同的属性，它们在样本空间的权重是不一样的，即它们与类别的关联度是不同的，因此有必要筛选一些属性或者对各个属性赋一定的权重。这样属性选择的方法就应运而生了。在属性选择方面InfoGain和GainRatio的比较常见，也是最通俗易懂的方法。它们与Decision Tre

2016-01-08 15:05:50 2456

转载 Weka学习三（ensemble算法）

前两次我们讲了数据挖掘中比较常见的两类方法。这次我来介绍一下ensemble（集成技术），总的来说，ensemble技术是归类在分类中的。它的主要原理是通过集成多个分类器的效果来达到提高分类效果的目的。简单我们可以通过两张图片来看看集成的效果图一为多个基分类器单独工作时的分类效果图。图二为集成分类器的分类效果。我们可以看到集成分类器的分类曲线明显会平滑的多。来个比喻，在一件事情

2016-01-08 15:05:22 3203

Weka学习四（属性选择）

在这一节我们看看属性选择。在数据挖掘的研究中，通常要通过距离来计算样本之间的距离，而样本距离是通过属性值来计算的。我们知道对于不同的属性，它们在样本空间的权重是不一样的，即它们与类别的关联度是不同的，因此有必要筛选一些属性或者对各个属性赋一定的权重。这样属性选择的方法就应运而生了。在属性选择方面InfoGain和GainRatio的比较常见，也是最通俗易懂的方法。它们与Decision Tre...

2016-01-08 15:05:00 384

Weka学习三（ensemble算法）

前两次我们讲了数据挖掘中比较常见的两类方法。这次我来介绍一下ensemble（集成技术），总的来说，ensemble技术是归类在分类中的。它的主要原理是通过集成多个分类器的效果来达到提高分类效果的目的。简单我们可以通过两张图片来看看集成的效果图一为多个基分类器单独工作时的分类效果图。图二为集成分类器的分类效果。我们可以看到集成分类器的分类曲线明显会平滑的多。来个比喻，在一件事情的表...

2016-01-08 15:05:00 246

转载 Weka初步二（聚类算法）

上次我介绍了分类器的使用方法，这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习（unsupervised learning），这是与分类算法（supervised learning）相对的。在它们两者之间还一种叫做半监督学习（semi-supervised learning）这个我会在后面的文章中重点介绍。所谓无监督学习就是在预先不知道样本类别的情况下，由聚类算法来判别样本的类别

2016-01-08 15:04:49 1967

转载 Weka初步一

从前年开始使用weka最数据挖掘方面的研究，到现在有一年半的时间了。看到我们同组的兄弟写了关于weka方面的总结，我也想整理一下。因为网上的资料实在是太少，记得刚接手的时候，真是硬着头皮看代码。不过到现在看来，也积累了很多的代码了。希望能够在这里跟大家分享一下学习weka的乐趣与经验。Weka是来之新西兰怀卡托大学的一款开源软件，主要是数据挖掘方面的一些算法的集合。这款软件大概是当前数据挖掘领

2016-01-08 15:04:12 480

Weka初步二（聚类算法）

上次我介绍了分类器的使用方法，这次我来介绍一下聚类算法。聚类算法在数据挖掘里面被称之为无监督学习（unsupervised learning），这是与分类算法（supervised learning）相对的。在它们两者之间还一种叫做半监督学习（semi-supervised learning）这个我会在后面的文章中重点介绍。所谓无监督学习就是在预先不知道样本类别的情况下，由聚类算法来判别样本的类别...

2016-01-08 15:04:00 269

Weka初步一

从前年开始使用weka最数据挖掘方面的研究，到现在有一年半的时间了。看到我们同组的兄弟写了关于weka方面的总结，我也想整理一下。因为网上的资料实在是太少，记得刚接手的时候，真是硬着头皮看代码。不过到现在看来，也积累了很多的代码了。希望能够在这里跟大家分享一下学习weka的乐趣与经验。Weka是来之新西兰怀卡托大学的一款开源软件，主要是数据挖掘方面的一些算法的集合。这款软件大概是当前数据挖掘领...

2016-01-08 15:04:00 98

转载 WEKA使用教程(经典教程转载)

1. 简介 WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括

2016-01-08 15:01:08 1417

WEKA使用教程(经典教程转载)

1. 简介WEKA的全名是怀卡托智能分析环境（Waikato Environment for Knowledge Analysis），它的源代码可通过http://www.cs.waikato.ac.nz/ml/weka得到。同时weka也是新西兰的一种鸟名，而WEKA的主要开发者来自新西兰。WEKA作为一个公开的数据挖掘工作平台，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据...

2016-01-08 15:01:00 328

转载应用scikit-learn做文本分类

文本挖掘的paper没找到统一的benchmark，只好自己跑程序，走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类（最好要所有类分类结果，全部或取部分特征无所谓）麻烦留言告知下现在的benchmark，万谢！嗯，说正文。20newsgroups官网上给出了3个数据集，这里我们用最原始的20news-19997.tar.gz。分为以下

2016-01-08 14:49:17 607

应用scikit-learn做文本分类

文本挖掘的paper没找到统一的benchmark，只好自己跑程序，走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类（最好要所有类分类结果，全部或取部分特征无所谓）麻烦留言告知下现在的benchmark，万谢！嗯，说正文。20newsgroups官网上给出了3个数据集，这里我们用最原始的20news-19997.tar.gz。分为以下...

2016-01-08 14:49:00 113

转载开源机器学习软件

编程语言：搞实验个人认为当然matlab最灵活了（但是正版很贵），但是更为前途的是python（numpy+scipy+matplotlib)和C/C++，这样组合既可搞研究，也可搞商业开发，易用性不比matlab差，功能组合更为强大，个人认为，当然R和java也不错.1.机器学习开源软件网（收录了各种机器学习的各种编程语言学术与商业的开源软件）http://mloss.org

2016-01-08 14:42:36 481

开源机器学习软件

编程语言：搞实验个人认为当然matlab最灵活了（但是正版很贵），但是更为前途的是python（numpy+scipy+matplotlib)和C/C++，这样组合既可搞研究，也可搞商业开发，易用性不比matlab差，功能组合更为强大，个人认为，当然R和java也不错.1.机器学习开源软件网（收录了各种机器学习的各种编程语言学术与商业的开源软件）http://mloss.org...

2016-01-08 14:42:00 85

转载这些年，这些挖掘机算法，这些反思

写这篇文章，缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较囧的就是，由于boss不在，我们讨论讨论着就成了吐槽大会，倒是有一半时间在吐槽产品以及业务部门了。　　不过这也算是一件可喜可贺的事情了，这也可以看做是我们数据部门，已经由开轻型挖掘机向深挖阶段迈步了。　　因此，借此机会，也对自己接触过的，了解过的，或者做过的一些勉强称得上算法的

2016-01-08 14:19:04 800

这些年，这些挖掘机算法，这些反思

写这篇文章，缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较囧的就是，由于boss不在，我们讨论讨论着就成了吐槽大会，倒是有一半时间在吐槽产品以及业务部门了。　　不过这也算是一件可喜可贺的事情了，这也可以看做是我们数据部门，已经由开轻型挖掘机向深挖阶段迈步了。　　因此，借此机会，也对自己接触过的，了解过的，或者做过的一些勉强称得上算...

2016-01-08 14:19:00 287

原创常用方法的总结

（1）最简单的当然是词频方法（Word Frequency）：词频是一个词在文档中出现的次数。通过词频进行特征选择就是将词频小于某一闭值的词删除，从而降低特征空间的维数。这个方法是基于这样一个假设，即出现频率小的词对过滤的影响也较小。但是在信息检索的研究中认为，有时频率小的词含有更多的信息。因此，在特征选择的过程中不宜简单地根据词频大幅度删词。（2）对于多文档最简单的方法：文档

2016-01-08 13:34:40 688

常用方法的总结

（1）最简单的当然是词频方法（Word Frequency）：词频是一个词在文档中出现的次数。通过词频进行特征选择就是将词频小于某一闭值的词删除，从而降低特征空间的维数。这个方法是基于这样一个假设，即出现频率小的词对过滤的影响也较小。但是在信息检索的研究中认为，有时频率小的词含有更多的信息。因此，在特征选择的过程中不宜简单地根据词频大幅度删词。（2）对于多文档最简单的方法：...

2016-01-08 13:34:00 146

转载 Solr快速教程-下载及安装

Solr快速教程加载及配置步骤：1.下载最新版本的Solr(当前为v1.4)；下载地址：http://lucene.apache.org/solr/ 选择resource-download下载2.解压到随便一个地方,拿出以下两个文件:解压目录/dist/apache-solr-1.4.0.war;解压目录/example/solr；确保solr目录有以下文

2016-01-08 10:05:08 2134

Solr快速教程-下载及安装

Solr快速教程加载及配置步骤：1.下载最新版本的Solr(当前为v1.4)；下载地址：http://lucene.apache.org/solr/ 选择resource-download下载2.解压到随便一个地方,拿出以下两个文件:<1>解压目录/dist/apache-solr-1.4.0.war;<2>解压目录/example/solr；确保solr目录有以下文件存...

2016-01-08 10:05:00 58

转载 solr安装教程

Tomcat下Solr安装配置由于Solr基于java开发，因此Solr在windows及Linux都能较好部署使用，但由于Solr提供了一些用于测试及管理、维护较为方便的shell脚本，因此在生产部署时候建议安装在Linux上，测试时候可以在windows使用。Solr是一个基于Lucene的Java搜索引擎服务器。Solr 提供了层面搜索、命中醒目显示并且支持多种输出格式（包括

2016-01-08 09:51:13 581

solr安装教程

Tomcat下Solr安装配置由于Solr基于java开发，因此Solr在windows及Linux都能较好部署使用，但由于Solr提供了一些用于测试及管理、维护较为方便的shell脚本，因此在生产部署时候建议安装在Linux上，测试时候可以在windows使用。Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目显示并且支持多种输出格式（包...

2016-01-08 09:51:00 136

转载 solr教程，值得刚接触搜索开发人员一看

Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本

2016-01-08 09:48:16 1342

solr教程，值得刚接触搜索开发人员一看

Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试;两个核心配置文件介绍;维护索引;查询索引,和在查询中可以应用的高亮显示、拼写检查、搜索建议、分组统计、拼音检索等功能的使用方法。版本作者/修改人...

2016-01-08 09:48:00 241

转载关于SVM一篇比较全介绍的博文 [复制链接]

转自：http://blog.csdn.net/v_july_v/article/details/7624837前言动笔写这个支持向量机(support vector machine)是费了不少劲和困难的，原因很简单，一者这个东西本身就并不好懂，要深入学习和研究下去需花费不少时间和精力，二者这个东西也不好讲清楚，尽管网上已经有朋友写得不错了(见文末参考链接)，但在描述数

2016-01-07 15:21:21 1076

关于SVM一篇比较全介绍的博文 [复制链接]

转自：http://blog.csdn.net/v_july_v/article/details/7624837前言动笔写这个支持向量机(support vector machine)是费了不少劲和困难的，原因很简单，一者这个东西本身就并不好懂，要深入学习和研究下去需花费不少时间和精力，二者这个东西也不好讲清楚，尽管网上已经有朋友写得不错了(见文末参考链接)，但在描述数学公式的时候还...

2016-01-07 15:21:00 272

转载 Sqoop实现MySql/Oracle与Hdfs/Hbase互导数据

下文将重点说明通过Sqoop实现Mysql与HDFS互导数据，Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境：宿主机器操作系统为Win7，Mysql安装在宿主机上，宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装Hadoop，并实现免密

2016-01-07 14:12:53 449

Sqoop实现MySql/Oracle与Hdfs/Hbase互导数据

下文将重点说明通过Sqoop实现Mysql与HDFS互导数据，Mysql与Hbase,Oracle与Hbase的互导最后给出命令。一、Mysql与HDFS互导数据环境：宿主机器操作系统为Win7，Mysql安装在宿主机上，宿主机地址为192.168.66.963台虚拟机操作系统为Ubuntu-12.04.1-32位三台虚拟机已成功安装Hadoop，...

2016-01-07 14:12:00 97

转载 Storm学习(一)Storm介绍

场景伴随着信息科技日新月异的发展，信息呈现出爆发式的膨胀，人们获取信息的途径也更加多样、更加便捷，同时对于信息的时效性要求也越来越高。举个搜索场景中的例子，当一个卖家发布了一条宝贝信息时，他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦，相反，如果这个宝贝要等到第二天或者更久才可以被搜出来，估计这个大哥就要骂娘了。再举一个推荐的例子，如果用户昨天在淘宝上买了一双袜子，今天想买一

2016-01-07 14:11:33 282

Storm学习(一)Storm介绍

场景伴随着信息科技日新月异的发展，信息呈现出爆发式的膨胀，人们获取信息的途径也更加多样、更加便捷，同时对于信息的时效性要求也越来越高。举个搜索场景中的例子，当一个卖家发布了一条宝贝信息时，他希望的当然是这个宝贝马上就可以被卖家搜索出来、点击、购买啦，相反，如果这个宝贝要等到第二天或者更久才可以被搜出来，估计这个大哥就要骂娘了。再举一个推荐的例子，如果用户昨天在淘宝上买了一双袜子，今天想...

2016-01-07 14:11:00 73

转载 Java常用排序算法及性能测试集合

现在再回过头理解，结合自己的体会，选用最佳的方式描述这些算法，以方便理解它们的工作原理和程序设计技巧。本文适合做java面试准备的材料阅读。先附上一个测试报告：Array length: 20000bubbleSort : 766 msbubbleSortAdvanced : 662 msbubbleSortAdvanced2 : 647 msselectSort

2016-01-06 15:41:17 556

Java常用排序算法及性能测试集合

现在再回过头理解，结合自己的体会，选用最佳的方式描述这些算法，以方便理解它们的工作原理和程序设计技巧。本文适合做java面试准备的材料阅读。先附上一个测试报告：Array length: 20000bubbleSort : 766 msbubbleSortAdvanced : 662 msbubbleSortAdvanced2 : 647 msselectSo...

2016-01-06 15:41:00 120

项目管理师笔记整理

一个项目的流程

jcaob1-1-8

空空如也