- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 LibSVM(java版)的使用
0 准备工作 1)下载一个LibSVM; 2)了解一下SVM的原理还是非常必要的,不然都不知道参数是啥意思。。我看过一篇SVM入门的博客,里面有八讲,分享之。1 LibSVM的使用介绍
2015-11-27 22:27:35 11634 13
原创 用TFIDF给特征词赋权值
0 背景 在上一篇的用CHI检验的文章中我们已经获得了特征词,这些特征词在某一篇文章中出现的频率是不一样的,也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度,就必须赋权重。在本篇文章中,我们使用的方法是TFIDF。1 VSM向量空间模型 哎?不是讲TFIDF吗,怎么会有VSM向量空间模型呢。是这样,在经过CH
2015-11-24 22:26:03 4232 1
原创 用CHI检验提取文本特征词
0 背景 还是老师的文本分类的大作业。。。在对文本数据集分词并且除去停用词以后,我们就必须进行文本特征词的提取。所谓特征词就是可以代表此篇文章或者此类文章的一些词语。特征词提取的算法有很多,在此篇博客中讲的是CHI检验。CHI检验让我觉得概率论还是没有白学的。。。1 CHI检验基础 卡方检定一个应用的场景是独立性检验。“独立性检定”验证从两个变数抽出的配对观察值组是
2015-11-22 14:02:41 6716 1
原创 中文分词系统NLPIR(2015版)的Java接口使用学习
前言: 这几天数据挖掘的大作业又用到分词了,首先想到的肯定是中科院的分词系统NLPIR,但是之前用的事2013版的,2015版的有了新的变化。增加了函数和效率自是不必说,由于我是用的java,所以必须使用NLPIR的java接口,NLPIR提供了一个jna的jar包,其实确切来说是打包成了一个bundle,可见NLPIR非常有雄心,以后也必定有更多的功能bundle。此外,新版的
2015-11-09 13:51:12 1709 1
原创 Spark的flatMap和Map的区别
背景:在学习spark的时候,有一个开篇的例子中有两句代码如下所示:val input = sc.textFile(inputFile) val words = input.flatMap(line=>line.split(" ")) 上面两句的意思是,输入一个文件,然后以单空格作为将每一行的输入划分为单词s。 另外,在Spark提供的API中也
2015-11-08 18:15:39 2060
转载 OSGI的类加载机制
声明:以下为转载内容 原博客地址为http://blog.csdn.net/vking_wang/article/details/12875619思路OSGi每个模块都有自己独立的classpath。如何实现这一点呢?是因为OSGi采取了不同的类加载机制:OSGi为每个bundle提供一个类加载器,该加载器能够看到bundle Jar文件内部的类和资源;为了让bun
2015-11-08 16:03:53 803
原创 Ubuntu 14 下Spark 1.4.1 安装到eclipse 3.8
一、安装Scala插件打开eclipse,依次选择Help->Install New Software,点击Add按钮,如图所示,其中添加的路径为:http://download.scala-ide.org/sdk/e38/scala29/stable/site,然后点击ok,稍等一下便可以安装完成了。需要联网。
2015-11-07 21:45:28 635
用shell脚本实现hadoop多用户配置
2016-11-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人