nuoline的专栏

关注NLP,ML,云计算,大数据,hadoop 我的微博:http://weibo.com/nuoline

排序:
默认
按更新时间
按访问量

hadoop streaming/c++编程指南

1.       Hadoop streaming简介与工作机制     Hadoop streaming可以帮助用户创建和运行一类特殊的Map/Reduce作业, 这些特殊的Map/Reduce作业是由一些可执行文件或脚本文件充当Mapper或者reducer。Mapper和reducer都是...

2013-02-25 18:43:27

阅读数:1189

评论数:3

hadoop中map和reduce的数量设置问…

map和reduce是hadoop的核心功能,hadoop正是通过多个map和reduce的并行运行来实现任务的分布式并行计算,从这个观点来看,如果将map和reduce的数量设置为1,那么用户的任务就没有并行执行,但是map和reduce的数量也不能过多,数量过多虽然可以提高任务并行度,但是太多...

2013-02-25 18:43:25

阅读数:1318

评论数:2

虚拟机报错:Unable to open…

原文地址:to open kernel device "\.VMCIDevVMX": 重叠 I/O 操作在进行中.">虚拟机报错:Unable to open kernel device "\.VMCIDevVMX": 重叠 I/O 操作在进...

2013-02-25 18:43:23

阅读数:683

评论数:0

潜在语义分析Latent semantic…

潜语义分析LSA介绍 Latent Semantic Analysis (LSA), also known as Latent Semantic Indexing (LSI) literally means analyzing documents to find the underlying me...

2013-02-25 18:43:21

阅读数:1158

评论数:0

开源的机器翻译系统

本文介绍了统计机器翻译领域中一些重要的开源软件,包括词语对齐工具、语言模型工具、自动评测工具以及四个完整的统计机器翻译系统。 1. Egypt     Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块: &#...

2013-02-25 18:43:19

阅读数:4365

评论数:0

C++标准输入函数

1、cin  2、cin.get()  3、cin.getline()  4、getline()  5、gets() 6、getchar() 附:cin.ignore();cin.get()//跳过一个字符,例如不想要的回车,空格等字符 1、cin>>          用法1:...

2013-02-25 18:43:17

阅读数:817

评论数:0

linux用户权限管理

0.用户 1、建用户: adduser nuoline //新建nuoline用户 passwd nuoline //给nuoline用户设置密码 2、建工作组 groupadd test //新建test工作组 3、新建用户同时增加工作组 useradd -g test nuoline //新建...

2013-02-25 18:43:14

阅读数:22338

评论数:0

hadoop参数-hdfs-mapred

hdfs-default.html   序号 参数名 参数值 参数说明 1 dfs.namenode.logging.level info 输出日志类型 2 dfs.secondary.http.address 0.0...

2013-02-25 18:43:12

阅读数:832

评论数:0

hadoop参数-core-site.xml

三个缺省配置参考文件说明 core-default.html   序号 参数名 参数值 参数说明 1 hadoop.tmp.dir /tmp/hadoop-${user.name} 临时目录设定 2 hadoop.nati...

2013-02-25 18:43:10

阅读数:3786

评论数:0

hadoop端口

HDFS端口   参数 描述 默认 配置文件 例子值 fs.default.name namenode namenode RPC交互端口 8020 core-site.xml hdfs://master:8020/ d...

2013-02-25 18:43:08

阅读数:730

评论数:0

配置hadoop 使用fair sc…

配置步骤为 1. 将$HADOOP_HOME/contrib/fairscheduler/hadoop-fairscheduler-0.20.2-cdh3u5.jar拷贝到$HADOOP_HOME/lib文件夹中 2. 修改$HADOOP_HOME/conf/mapred-site.xml配置...

2013-02-25 18:43:06

阅读数:762

评论数:0

Hadoop 权限管理

hadoop 权限管理分为:用户分组管理 和 作业管理 1.用户分组管理:hadoop通过组管理用户的行为, 一个组可以是一个pool(一个用户也可以定义一个pool),一个pool会被指定一组调度算法,以优化作业的执行效率。 2.作业管理:hadoop 通过 hadoop-policy.xml中...

2013-02-25 18:43:03

阅读数:582

评论数:0

微博求粉丝http://weibo.com/nuoli…

http://weibo.com/nuoline

2013-02-25 18:43:01

阅读数:737

评论数:0

SSTable和日志结构化存储:LevelDB…

如果说Protocol Buffer是谷歌独立数据记录的通用语言 ,那么有序字符串表(SSTable,Sorted String Table)则是用于存储,处理和数据集交换的最流行​​的数据输出格式。正如它的名字本身,SSTable是有效存储大量键-值对的简单抽象,对高吞吐量顺序读/写进行了优化。...

2013-02-25 18:42:59

阅读数:776

评论数:0

mysql相关命令

1. 登陆 如果使用自定义的lock文件,配置的lock文件路径为/application/search/Mysql/mysql/mysql.sock,则命令如下:    bin/mysql -u username -p -S /application/search/Mysql/mysql/my...

2013-02-25 18:42:57

阅读数:454

评论数:0

Hive Meta Table

一,主要数据表介绍 1,TBLS:记录和存储hive table的创建时间,名称,类型等信息。 Field Type Null Key Default TBL_ID bigint(20) NO PRI NULL CREATE_TIME ...

2013-02-25 18:42:54

阅读数:694

评论数:0

hive之SerDe概述

1.概述     当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。Hive的反序列化是对key/value反序列化成hi...

2013-02-25 18:42:52

阅读数:559

评论数:0

PIG之参数传递

在写pig脚本时往往需要外部参数传入,在pig脚本中也是可以类似与一般的shell实现的。 例如有一个求top-N的简单脚本,需要传入输入路径和N值: -- topn.pig -- A = LOAD '$input' USING PigStorage('\t') AS (url, count); ...

2013-02-25 18:42:50

阅读数:1541

评论数:0

hive结果导出

在hive中执行select语句,往往需要将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词,来实现上面所述的功能。 1.将select的结果放到一个的的表格中  insert overwrite table test  select uid...

2013-02-25 18:42:47

阅读数:746

评论数:0

hive之脚本执行

Hive是基于Hadoop的数据仓库,可以将结构化的数据文件hive映射为一张数据库表,并提供几乎完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。     Hive目前还不支持像Mysql那样的sql脚本,如果遇到需要批量处理HQL就相对麻烦,但是可以使用比较笨的sh...

2013-02-25 18:42:45

阅读数:6942

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭