自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

BlockheadLS的博客

多看书,多请教,勤思考,勤记录。

  • 博客(7)
  • 资源 (2)
  • 收藏
  • 关注

原创 LibSVM(java版)的使用

0  准备工作     1)下载一个LibSVM;     2)了解一下SVM的原理还是非常必要的,不然都不知道参数是啥意思。。我看过一篇SVM入门的博客,里面有八讲,分享之。1  LibSVM的使用介绍

2015-11-27 22:27:35 11551 13

原创 用TFIDF给特征词赋权值

0  背景           在上一篇的用CHI检验的文章中我们已经获得了特征词,这些特征词在某一篇文章中出现的频率是不一样的,也可以说词与词的重要性是不一样的。为了标示特征词语的重要程度,就必须赋权重。在本篇文章中,我们使用的方法是TFIDF。1   VSM向量空间模型             哎?不是讲TFIDF吗,怎么会有VSM向量空间模型呢。是这样,在经过CH

2015-11-24 22:26:03 4190 1

原创 用CHI检验提取文本特征词

0 背景       还是老师的文本分类的大作业。。。在对文本数据集分词并且除去停用词以后,我们就必须进行文本特征词的提取。所谓特征词就是可以代表此篇文章或者此类文章的一些词语。特征词提取的算法有很多,在此篇博客中讲的是CHI检验。CHI检验让我觉得概率论还是没有白学的。。。1  CHI检验基础    卡方检定一个应用的场景是独立性检验。“独立性检定”验证从两个变数抽出的配对观察值组是

2015-11-22 14:02:41 6658 1

原创 中文分词系统NLPIR(2015版)的Java接口使用学习

前言:        这几天数据挖掘的大作业又用到分词了,首先想到的肯定是中科院的分词系统NLPIR,但是之前用的事2013版的,2015版的有了新的变化。增加了函数和效率自是不必说,由于我是用的java,所以必须使用NLPIR的java接口,NLPIR提供了一个jna的jar包,其实确切来说是打包成了一个bundle,可见NLPIR非常有雄心,以后也必定有更多的功能bundle。此外,新版的

2015-11-09 13:51:12 1688 1

原创 Spark的flatMap和Map的区别

背景:在学习spark的时候,有一个开篇的例子中有两句代码如下所示:val input = sc.textFile(inputFile) val words = input.flatMap(line=>line.split(" "))     上面两句的意思是,输入一个文件,然后以单空格作为将每一行的输入划分为单词s。     另外,在Spark提供的API中也

2015-11-08 18:15:39 2041

转载 OSGI的类加载机制

声明:以下为转载内容 原博客地址为http://blog.csdn.net/vking_wang/article/details/12875619思路OSGi每个模块都有自己独立的classpath。如何实现这一点呢?是因为OSGi采取了不同的类加载机制:OSGi为每个bundle提供一个类加载器,该加载器能够看到bundle Jar文件内部的类和资源;为了让bun

2015-11-08 16:03:53 785

原创 Ubuntu 14 下Spark 1.4.1 安装到eclipse 3.8

一、安装Scala插件打开eclipse,依次选择Help->Install New Software,点击Add按钮,如图所示,其中添加的路径为:http://download.scala-ide.org/sdk/e38/scala29/stable/site,然后点击ok,稍等一下便可以安装完成了。需要联网。

2015-11-07 21:45:28 604

用shell脚本实现hadoop多用户配置

这个shell脚本是在业余时间写的,从一开始不懂shell,到写出这个程序还是经过了一段时间的,收取小小1分希望得到大家的鼓励 :) 。程序的解释和hadoop多用户配置的步骤也都可以在博客中找到:)

2016-11-21

基于ID3算法的决策树的实现

ID3算法的大致实现,同学们可以作为参考

2015-10-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除