2015年11月_BlockheadLS

11月 10月

原创 LibSVM（java版）的使用

0 准备工作 1）下载一个LibSVM； 2）了解一下SVM的原理还是非常必要的，不然都不知道参数是啥意思。。我看过一篇SVM入门的博客，里面有八讲，分享之。1 LibSVM的使用介绍

2015-11-27 22:27:35 11634 13

原创用TFIDF给特征词赋权值

0 背景在上一篇的用CHI检验的文章中我们已经获得了特征词，这些特征词在某一篇文章中出现的频率是不一样的，也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度，就必须赋权重。在本篇文章中，我们使用的方法是TFIDF。1 VSM向量空间模型哎？不是讲TFIDF吗，怎么会有VSM向量空间模型呢。是这样，在经过CH

2015-11-24 22:26:03 4232 1

原创用CHI检验提取文本特征词

0 背景还是老师的文本分类的大作业。。。在对文本数据集分词并且除去停用词以后，我们就必须进行文本特征词的提取。所谓特征词就是可以代表此篇文章或者此类文章的一些词语。特征词提取的算法有很多，在此篇博客中讲的是CHI检验。CHI检验让我觉得概率论还是没有白学的。。。1 CHI检验基础卡方检定一个应用的场景是独立性检验。“独立性检定”验证从两个变数抽出的配对观察值组是

2015-11-22 14:02:41 6716 1

原创中文分词系统NLPIR（2015版）的Java接口使用学习

前言：这几天数据挖掘的大作业又用到分词了，首先想到的肯定是中科院的分词系统NLPIR，但是之前用的事2013版的，2015版的有了新的变化。增加了函数和效率自是不必说，由于我是用的java，所以必须使用NLPIR的java接口，NLPIR提供了一个jna的jar包，其实确切来说是打包成了一个bundle，可见NLPIR非常有雄心，以后也必定有更多的功能bundle。此外，新版的

2015-11-09 13:51:12 1709 1

原创 Spark的flatMap和Map的区别

背景：在学习spark的时候，有一个开篇的例子中有两句代码如下所示：val input = sc.textFile(inputFile) val words = input.flatMap(line=>line.split(" ")) 上面两句的意思是，输入一个文件，然后以单空格作为将每一行的输入划分为单词s。另外，在Spark提供的API中也

2015-11-08 18:15:39 2060

转载 OSGI的类加载机制

声明：以下为转载内容原博客地址为http://blog.csdn.net/vking_wang/article/details/12875619思路OSGi每个模块都有自己独立的classpath。如何实现这一点呢？是因为OSGi采取了不同的类加载机制：OSGi为每个bundle提供一个类加载器，该加载器能够看到bundle Jar文件内部的类和资源；为了让bun

2015-11-08 16:03:53 803

原创 Ubuntu 14 下Spark 1.4.1 安装到eclipse 3.8

一、安装Scala插件打开eclipse，依次选择Help->Install New Software，点击Add按钮，如图所示，其中添加的路径为：http://download.scala-ide.org/sdk/e38/scala29/stable/site，然后点击ok，稍等一下便可以安装完成了。需要联网。

2015-11-07 21:45:28 635

用shell脚本实现hadoop多用户配置

这个shell脚本是在业余时间写的，从一开始不懂shell，到写出这个程序还是经过了一段时间的，收取小小1分希望得到大家的鼓励 :) 。程序的解释和hadoop多用户配置的步骤也都可以在博客中找到:)

2016-11-21

基于ID3算法的决策树的实现

ID3算法的大致实现，同学们可以作为参考

2015-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人