- 博客(10)
- 收藏
- 关注
转载 使用libsvm实现文本分类
文本分类,首先它是分类问题,应该对应着分类过程的两个重要的步骤,一个是使用训练数据集训练分类器,另一个就是使用测试数据集来评价分类器的分类精度。然而,作为文本分类,它还具有文本这样的约束,所以对于文本来说,需要额外的处理过程,我们结合使用libsvm从宏观上总结一下,基于libsvm实现文本分类实现的基本过程,如下所示:选择文本训练数据集和测试数据集:训练集和测试集都是类标签已知的;
2015-07-31 21:08:56 482
转载 mahout
目录preface1 使用kmeans算法实例2 mahout杂记3 mahout聚类算法4 mahout运行bayes(贝叶斯)算法preface运行自带的例子来进行测试第1章 使用kmeans算法实例(1)http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_con
2015-07-30 19:29:15 539
转载 Eclipse中运行MapReduce程序时控制台无法打印进度信息的问题
一般会在控制台上打印以下信息:[plain] view plaincopylog4j:WARN No appenders could be found for logger (org.apache.hadoop.util.Shell). log4j:WARN Please initialize the log4j system prop
2015-07-27 11:13:53 543
转载 linux之sed用法
sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作,下面先了解一下sed的用法sed命令行格式为: sed [-nefri] ‘command’ 输入文本 常用选项: -n∶使用安静(silent)模式。在一般 sed 的用法中,所有来自 STDIN的资料一般
2015-07-27 09:04:03 190
转载 Sqoop中文手册
Sqoop在我们的实际工作中有一些应用,为了对Sqoop的使用有个更全面的了解,于是我花了一些时间将Sqoop的使用整理成了一份中文手册,我自认还是非常全面的,覆盖到了Sqoop所有的方面。虽然对每一个用法,我都是尽可能地先经过测试然后再得出结论,但可能难免会有谬误,不过总的来说希望能对使用Sqoop的朋友有点帮助吧。1.概述本文档主要对SQOOP的使用进行了说
2015-07-25 12:25:50 328
原创 有关yarn异常处理
问题描述: 配置好yarn框架后,运行wordcount例子时提示yarn.exceptions.YarnException: Unauthorized request to start container.解决办法: 这很有可能是解群节点时间不一致造成的。同步各个节点时间后,一般问题可以解决。
2015-07-25 12:24:19 476
原创 ubuntu 下输入法问题
刚玩ubuntu系统,系统刚装上的时候,汉语(pinyin)输入法老是搞不定,比如打anzhuang汉字老是出错,最后发现是ibus框架未启动。终端执行ibus-daemon -d -x -r即可
2015-07-25 12:22:06 377
转载 ubuntu 查看文件编码并进行批量编码修改
ubuntu下的安装命令:sudo apt-get install encaenca查看文件enca -L zh_CN file 查看文件编码enca -L zh_CN -x UTF-8 file 更改文件编码enca -L zh_CN -x UTF-8 file2 不想覆盖原文件下面是一个脚本,批量更改文件编码
2015-07-24 09:06:00 538
转载 Hive去重复数据
这几天我一直在研究Hive,我们今天看一个新的知识,Hive去重复数据。Hive数据去重Sql代码 insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , row_num
2015-07-10 15:10:24 1862
转载 hive正则表达式
hive中实现正则表达式,与java中的正则表达式有所区别:这里经过探索总结了一些:hive中的正则可以用,但是有所区别,区别在于原来的‘\’ 转义,这里变成了双斜杠了‘\\’hive中的正则解析函数:regexp_extract; 例如:‘匹配 10.122.248’select regexp_extract(host,'(^[\\w]+)\\.([
2015-07-10 14:43:43 1096
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人