自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

转载 使用libsvm实现文本分类

文本分类,首先它是分类问题,应该对应着分类过程的两个重要的步骤,一个是使用训练数据集训练分类器,另一个就是使用测试数据集来评价分类器的分类精度。然而,作为文本分类,它还具有文本这样的约束,所以对于文本来说,需要额外的处理过程,我们结合使用libsvm从宏观上总结一下,基于libsvm实现文本分类实现的基本过程,如下所示:选择文本训练数据集和测试数据集:训练集和测试集都是类标签已知的;

2015-07-31 21:08:56 482

转载 mahout

目录preface1 使用kmeans算法实例2 mahout杂记3 mahout聚类算法4 mahout运行bayes(贝叶斯)算法preface运行自带的例子来进行测试第1章 使用kmeans算法实例(1)http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_con

2015-07-30 19:29:15 539

转载 Eclipse中运行MapReduce程序时控制台无法打印进度信息的问题

一般会在控制台上打印以下信息:[plain] view plaincopylog4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell).  log4j:WARN Please initialize the log4j system prop

2015-07-27 11:13:53 543

转载 linux之sed用法

sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作,下面先了解一下sed的用法sed命令行格式为:         sed [-nefri] ‘command’ 输入文本        常用选项:        -n∶使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN的资料一般

2015-07-27 09:04:03 190

转载 Sqoop中文手册

Sqoop在我们的实际工作中有一些应用,为了对Sqoop的使用有个更全面的了解,于是我花了一些时间将Sqoop的使用整理成了一份中文手册,我自认还是非常全面的,覆盖到了Sqoop所有的方面。虽然对每一个用法,我都是尽可能地先经过测试然后再得出结论,但可能难免会有谬误,不过总的来说希望能对使用Sqoop的朋友有点帮助吧。1.概述本文档主要对SQOOP的使用进行了说

2015-07-25 12:25:50 328

原创 有关yarn异常处理

问题描述:       配置好yarn框架后,运行wordcount例子时提示yarn.exceptions.YarnException: Unauthorized request to start container.解决办法:       这很有可能是解群节点时间不一致造成的。同步各个节点时间后,一般问题可以解决。

2015-07-25 12:24:19 476

原创 ubuntu 下输入法问题

刚玩ubuntu系统,系统刚装上的时候,汉语(pinyin)输入法老是搞不定,比如打anzhuang汉字老是出错,最后发现是ibus框架未启动。终端执行ibus-daemon -d -x -r即可

2015-07-25 12:22:06 377

转载 ubuntu 查看文件编码并进行批量编码修改

ubuntu下的安装命令:sudo apt-get install encaenca查看文件enca -L zh_CN file 查看文件编码enca -L zh_CN -x UTF-8 file 更改文件编码enca -L zh_CN -x UTF-8 file2 不想覆盖原文件下面是一个脚本,批量更改文件编码

2015-07-24 09:06:00 538

转载 Hive去重复数据

这几天我一直在研究Hive,我们今天看一个新的知识,Hive去重复数据。Hive数据去重Sql代码  insert overwrite table store      select t.p_key,t.sort_word from         ( select p_key,               sort_word ,               row_num

2015-07-10 15:10:24 1862

转载 hive正则表达式

hive中实现正则表达式,与java中的正则表达式有所区别:这里经过探索总结了一些:hive中的正则可以用,但是有所区别,区别在于原来的‘\’ 转义,这里变成了双斜杠了‘\\’hive中的正则解析函数:regexp_extract;    例如:‘匹配 10.122.248’select regexp_extract(host,'(^[\\w]+)\\.([

2015-07-10 14:43:43 1096

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除