- 博客(11)
- 资源 (8)
- 收藏
- 关注
转载 centos下vi的用法大全
vi编辑器是所有Unix及Linux系统下标准的编辑器,它的强大不逊色于任何最新的文本编辑器,这里只是简单地介绍一下它的用法和一小部分指令。由于对Unix及Linux系统的任何版本,vi编辑器是完全相同的,因此您可以在其他任何介绍vi的地方进一步了解它。Vi也是Linux中最基本的文本编辑器,学会它后,您将在Linux的世界里畅行无阻。1、vi的基本概念 基本上vi可以分为三种状态,分
2013-10-30 22:32:41 681
原创 备忘贴:Ubuntu下Hadoop单结点部署
Ubuntu下Hadoop单结点部署1.准备[1] 操作系统:Ubuntu 10.10[2] Java开发环境:JDK 6.0以上,这里选择Java SE 6 Update 29,下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u29-download-513648.html[3] Hadoop安装
2013-10-30 12:52:26 633
转载 Linux下查看文件和文件夹大小
当磁盘大小超过标准时会有报警提示,这时如果掌握df和du命令是非常明智的选择。 df可以查看一级文件夹大小、使用比例、档案系统及其挂入点,但对文件却无能为力。 du可以查看文件及文件夹的大小。 两者配合使用,非常有效。比如用df查看哪个一级目录过大,然后用df查看文件夹或文件的大小,如此便可迅速确定症结。 下面分别简要介绍 df命令
2013-10-28 18:56:56 565
转载 Hadoop手动启动过程
注:不失一般性,我们这里以dfs的启动为例子,mapred的启动道理是一样的。Dfs的启动脚本实际上是$HADOOP_HOME/bin/start-dfs.sh,start-all.sh也正是通过调用这个脚本来达到启动整个 HDFS的目的。start-dfs.sh会按顺序启动namenode, datanode(s)和secondnamenode,我在这里将一一说明:1. 启动Name
2013-10-27 13:01:25 1178
原创 各种SQL在PIG中实现
我这里以Mysql 5.1.x为例,Pig的版本是0.8同时我将数据放在了两个文件,存放在/tmp/data_file_1和/tmp/data_file_2中.文件内容如下:tmp_file_1:Txt代码 zhangsan 23 1 lisi 24 1 wangmazi 30 1 meinv 18 0 dam
2013-10-27 11:56:13 657
原创 Pig学习总结
Pig是一种探索大规模数据集的脚本语言。pig是在HDFS和MapReduce之上的数据流处理语言,它将数据流处理翻译成多个map和reduce函数,提供更高层次的抽象将程序员从具体的编程中解放出来。Pig包括两部分:用于描述数据流的语言,称为Pig Latin;和用于运行Pig Latin程序的执行环境。Pig Latin程序有一系列的operation和
2013-10-27 11:54:45 1436
原创 Hadoop HDFS支持的所有命令
hadoop fs 查看Hadoop HDFS支持的所有命令 hadoop fs –ls 列出目录及文件信息 hadoop fs –lsr 循环列出目录、子目录及文件信息 hadoop fs –put test.txt /user/sunlightcs 将本地文件系统的test.txt复制到HDFS文件系统的/user/sunlightcs目录下 h
2013-10-27 08:25:50 738
转载 不懂这显然您不专业!云计算术语大全
云计算实用之路漫漫其修远兮,当今,各厂商对云计算的定义不一,云计算的标准更是各行其道。在这云计算的混战时代,产生的有关云计算的术语更是目不暇接,整个IT界似乎正在迎来一个云计算术语爆炸的时代,其中有关于云计算概念本身,也有关于厂商的云策略和云产品的。本文通过对现有的云计算资料进行梳理,列出了60多条云计算相关的术语及其解释,以供参考。 1. 云计算 关于云计算的定义,目前为止至
2013-10-12 16:15:16 1393 1
转载 Mahout分类算法效果评估指标
mahout中有许多分类器,包括Naive Bayes, Complementary Naive Bayes, Stochastic Gradient Descent, Support Vector Machine, Random Forest等。评估一个分类器(模型)的好坏,需要有一些指标,而在mahout中提供了下列衡量指标:1. %-correct (ConfusionMatr
2013-10-09 16:00:46 849
原创 Mahout0.8中Bayes分类器的原理与使用
1、Mahout0.8中Bayes Classifier的使用方法 在Mahout in action一书中,有通过bin/mahout ...命令行对20newsgroups进行Bayes分类的详细阐述,不过书上使用的版本是0.5的,该版本有很多bug,产生莫名其妙的错误。其中主要牵涉到三个命令,prepare20newsgroups,trainclassifier,testclas
2013-10-08 21:59:36 1546
转载 基于Naive Bayes文本分类算法
琢磨了两天,对于朴素贝叶斯的原理弄得很清楚,可是要做文本分类,看了好多文章知道基于朴素贝叶斯公式,比较出后验概率的最大值来进行分类,后验概率的计算是由先验概率与类条件概率的乘积得出,先验概率和类条件概率要通过训练数据集得出,即为朴素贝叶斯分类模型,将其保存为中间结果,测试文档进行分类时调用这个中间结果得出后验概率。大的思路理解的很清楚,可是中间的细节可以说很重要的部分没弄明白,中间得出的模型怎样和
2013-10-08 21:31:40 771
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人