Hadoop入门
文章平均质量分 62
波特王子
csdn太难用了,唉
展开
-
hadoop入门学习资料大全
Hadoop 是一个分布式系统基础架构,由Apache 基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop 是一个可以更容易开发和运行处理大规模数据的软件平台。Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS 有着高容错性(fault转载 2013-02-20 14:41:24 · 554 阅读 · 0 评论 -
hive中RegexSerDe的使用
RegexSerDe是hive自带的一种序列化/反序列化的方式,主要用来处理正则表达式。举个实际的例子:CREATE TABLE sunwg03(c0 string,c1 string,c2 string)ROW FORMATSERDE ‘org.apache.hadoop.hive.contrib.serde2.RegexSerDe’WITH SERDEPRO原创 2013-08-08 16:57:05 · 5344 阅读 · 0 评论 -
hive cli
Hive Cli = hive启动 =*$ hive –f script.q*$ hive -e 'SELECT *FROM dummy‘*$ hive -S -e 'SELECT* FROM dummy‘*$ hive -hiveconfhive.root.logger=DEBUG,console = set =*hiv转载 2013-07-30 11:05:07 · 1169 阅读 · 0 评论 -
HiveQL Tips
在Hive中,某些小技巧可以让我们的Job执行得更快,有时一点小小的改动就可以让性能得到大幅提升,这一点其实跟SQL差不多。首先,Hive != SQL,虽然二者的语法很像,但是Hive最终会被转化成MapReduce的代码去执行,所以数据库的优化原则基本上都不适用于 Hive。也正因如此,Hive实际上是用来做计算的,而不像数据库是用作存储的,当然数据库也有很多计算功能,但一般并不建议在SQ转载 2013-08-21 13:52:51 · 789 阅读 · 0 评论 -
第一个Hive UDAF函数
hive提供了org.apache.hadoop.hive.ql.exec.UDF类和org.apache.hadoop.hive.ql.exec.UDAF类,我们可以通过继承这个类来实现不同功能的函数,在脚本中很方便的调用它。第一步,在eclipse中创建一个java项目,命名为ConnectGroup第二步,导入UDAF需要的jar包,hive-exec-???.jar原创 2013-08-22 15:19:16 · 2839 阅读 · 0 评论 -
Hive 读书笔记1:Getting Started
bin/hive --helpUsage ./hive --service serviceName Service List: cli help hiveserver hwi jar lineage metastore rcfilecat(Hive支持的service)对于某个具体的服务,要获取帮助的话,可以:hive --help --service clihi原创 2013-08-22 17:32:52 · 2097 阅读 · 0 评论 -
Accessing HDFS over FTP
source: http://nubetech.co/accessing-hdfs-over-ftpThe Hadoop Distributed File System provides different interfaces so that clients can interact with it. Besides the HDFS shell, the file system e转载 2013-09-09 16:52:37 · 1493 阅读 · 0 评论 -
hdfs-over-ftp安装与配置
hdfs-over-ftp是一个开源,简单易用的实现了对HDFS系统的下载和上传功能的小工具。可以作为管理工具来使用,快捷方便。1 安装jdk(1.6以上版本)并配置环境变量分别执行java -version和javac -version,若显示版本正确,则说明安装和配置成功 2 安装hadoop,并将服务启动并配置环境变量执行hadoop version,若显示正转载 2013-09-09 17:16:53 · 8655 阅读 · 0 评论 -
distcp使用纪要
distcp主要用于在hadoop集群之间拷贝数据。1,如果haboop版本相同,可以使用如下格式hadoop distcp hdfs:///src hdfs:///des2, 如果在不同版本的hadoop集群之间拷贝数据,可以使用如下格式hadoop distcp -i hftp://>/src hdfs:///des对于不同Hadoo转载 2013-09-10 13:43:25 · 3151 阅读 · 0 评论 -
关于chown: Non-super user cannot change owner
用root用户登录,执行指令:hadoop fs -chown ftp:ftp /DATA/mylog出现错误:chown: changing ownership of 'hdfs://node1.e1:8080/DATA/mylog':org.apache.hadoop.security.AccessControlException: Non-super user cannot原创 2013-09-11 18:10:51 · 10688 阅读 · 2 评论 -
hadoop客户端该如何配置
Hadoop集群主要是由三部分组成的:主节点、从节点和客户端,即master、slave和client。我们在搭建hadoop集群的时候通常只考虑了主节点和从节点的搭建,却忽略了客户端。当我们搭建完成后,我们在其中的一台机器上运行wordcount或者计算π时,实际上我们已经默认将一台主节点或者一台从节点当做客户端来使用了,但是,如果我想把客户端独立,该如何单独配置客户端呢?答案其实很简单转载 2013-10-11 17:38:33 · 11382 阅读 · 0 评论 -
distcp从ftp到hdfs拷贝文件
distcp从ftp到hdfs拷贝文件:hadoop distcp ftp://fptuser:ftppassword@/ftp/path/ hdfs://node:port//hdfs/path/原创 2013-09-10 13:45:29 · 5442 阅读 · 1 评论 -
AccessControlException: Non-super user cannot change owner
采用root登陆,执行: hadoop fs -chown -R user1 /mydir/出错:AccessControlException: Non-super user cannot change ownersudo -u root hadoop fs -chown -R user1 /mydir/仍然不行。sudo -u hdfs hadoop fs -chown -R原创 2013-10-22 17:07:16 · 2070 阅读 · 0 评论 -
Hadoop Shell Commands
FS ShellThe FileSystem (FS) shell is invoked by bin/hadoop fs . All the FS shell commands take path URIs as arguments. The URI format isscheme://autority/path. For HDFS the scheme is hdfs, and转载 2013-10-22 17:09:52 · 785 阅读 · 0 评论 -
SSH forwarding
来源:http://gl08301.blog.163.com/blog/static/132118851201121732552784/ssh -L [bind_address:]port:host:hostport -L选项即是指本地端口转发。其中的host:hostport指定的是由转发的数据的目标主机地址及端口,该目的地址可以与相同。意即本机(假设为debian)将会建立一条到的ss转载 2013-11-07 14:42:19 · 1313 阅读 · 0 评论 -
IDH 安装测试日志
BIOS 光驱启动安装RedHat选择普通的Boot Menu启动项四个中选Back USB即可hd-a后面两块盘装OS,做成raid0,如果选ext4的话,要求关闭磁盘写缓存。RedHat Minimal安装配置各个节点IP,并修改/etc/hostsifconfigvi ifcfg-eth1service network restar原创 2013-07-30 11:24:34 · 1811 阅读 · 0 评论 -
Flume向hdfs发送日志文件配置
Flume NG 1.x 是Flume 0.9.x的重构版本,基本面目全非了,Master和zookeeper没有了,collector没有了,Web console没有了,只有source (avro:很简单使用;exec:使用shell命令)sink (我用的hdfs)channl这3个组件,俨然从一个分布式系统变成了传输工具。下面是一个例子(参数经过优化)原创 2013-05-13 16:10:53 · 4321 阅读 · 2 评论 -
System Activity Reporter (sar)
source: http://www.softpanorama.org/Admin/Monitoring/sar.shtmlThe SAR suite of utilities originated in Solaris. It became popular and now runs on most flavors of UNIX, including AIX, HP-UX, and Linu转载 2013-03-19 16:58:12 · 1333 阅读 · 0 评论 -
Access Control List
source: http://en.wikipedia.org/wiki/Access_control_listAn access control list (ACL), with respect to a computer file system, is a list of permissions attached to an object. An ACL specifies whi转载 2013-04-02 09:31:24 · 999 阅读 · 0 评论 -
Kerberos (protocol)
source: http://en.wikipedia.org/wiki/Kerberos_(protocol)Kerberos is a computer network authentication protocol which works on the basis of "tickets" to allow nodes communicating over a non-secur转载 2013-04-02 09:47:55 · 1085 阅读 · 0 评论 -
hadoop远程客户端安装配置、多用户权限配置
hadoop远程客户端安装配置客户端系统:ubuntu12.04客户端用户名:mjiang服务器用户名:hadoop下载hadoop安装包,保证和服务器版本一致(或直接copy服务器的hadoop安装包) 到 http://mirror.bjtu.edu.cn/apache/hadoop/common/ 下载tar.gz安装包,解压。tar zxvf h转载 2013-04-25 10:03:49 · 1299 阅读 · 0 评论 -
Cloud Security Front and Center
Source:http://blogs.forrester.com/security_and_risk/2009/11/cloud-security-front-and-center.htmlCLOUD SECURITY FRONT AND CENTERCloud computing is the latest trend that has the industry abuzz转载 2013-04-25 22:21:12 · 732 阅读 · 0 评论 -
IT must prepare for Hadoop security issues
IT must prepare for Hadoop security issuesAggregating data from multiple sources can cause access control and data entitlement problems, analysts saysource: http://www.computerworld.com/s/article/92转载 2013-05-01 11:29:33 · 911 阅读 · 0 评论 -
Authorization and Authentication In Hadoop
Source:http://blog.cloudera.com/blog/2012/03/authorization-and-authentication-in-hadoopOne of the more confusing topics in Hadoop is how authorization and authentication work in the system.转载 2013-04-30 22:12:15 · 738 阅读 · 0 评论 -
LDAP简介
来源:http://caoruntao.iteye.com/blog/980651LDAP简介 简单说来,LDAP是一个得到关于人或者资源的集中、静态数据的快速方式。 LDAP是一个用来发布目录信息到许多不同资源的协议。通常它都作为一个集中的地址本使用,不过根据组织者的需要,它可以做得更加强大。 LDAP最新的rfc规范文档时RFC 4511 Lightwei转载 2013-05-01 14:34:49 · 686 阅读 · 0 评论 -
Hadoop九大技巧 助您保护大数据安全
来源: http://cloud.watchstor.com/storage-140784.htm当企业转变为数据驱动的机器时,其潜力是巨大的:企业所拥有的数据可能成为获得竞争优势的关键。因此,企业的数据和基础设施的安全也变得比以往任何时候都重要。在许多情况下,企业或组织都可能得到Forrester所说的“有毒的数据”。例如,一家无线公司正在收集谁登录哪一个天线塔、他们在线逗留多长时间转载 2013-05-02 02:08:59 · 627 阅读 · 0 评论 -
Hadoop存在巨大数据安全风险的理由
来源:http://sec.chinabyte.com/249/12600749.shtml 关键字:风险 数据安全 Hadoop 比特网ChinaByte 4月24日编译报道 Hadoop存在巨大数据安全风险的十个理由: 1、Hadoop不是专为企业数据而生 像许多开拓性的IT技术(如TCP / IP或Unix)一样,Hadoop的概念并非来自企业用户转载 2013-05-01 13:09:21 · 1363 阅读 · 0 评论 -
Hadoop管理员的十个最佳实践(转)
前言接触Hadoop有两年的时间了,期间遇到很多的问题,既有经典的NameNode和JobTracker内存溢出故障,也有HDFS存储小文件问题,既有任务调度问题,也有MapReduce性能问题.遇到的这些问题有些是Hadoop自身的缺陷(短板),有些则是使用的不当。本文基于 Cloudera CDH 3u4(同Apache Hadoop 1.0)编写。相关推荐配置为官方推荐值或者转载 2013-05-02 01:04:16 · 634 阅读 · 0 评论 -
对kerberos的理解--经典对话读后
来源: http://blog.csdn.net/dog250/article/details/5468942kerberos是一个基于对称密钥的认证系统,事实上它有时候比基于非对称密钥的pki工作的更好,特别是在小规模网络架构时,管理上更加集中和方便,甚至效率更高。那篇经典对话相信很多人都能将之读完,但是读完之后同样很多人需要时间来消化,事实上那篇对话并不仅仅是在讲kerberos的原理,它转载 2013-05-02 01:24:05 · 638 阅读 · 0 评论 -
Kerberos原理--经典对话
这是MIT(Massachusetts Institute of Technology)为了帮助人们理解Kerberos的原理而写的一篇对话集。里面有两个虚构的人物:Athena和Euripides,通过 Athena不断的构思和Euripides不断的寻找其中的漏洞,使大家明白了Kerberos协议的原理。 Athena: 雅典娜,智慧与技艺的女神。 Euripides:欧里庇得斯,转载 2013-05-02 01:22:37 · 575 阅读 · 0 评论 -
Hadoop Shell命令
Hadoop Shell命令调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用配置中指定转载 2013-05-16 17:37:26 · 696 阅读 · 0 评论 -
Hadoop缺省端口列表
50030 mapred.job.tracker.http.address 描述:JobTracker administrative web GUI JOBTRACKER的HTTP服务器和端口 50070 dfs.http.address 描述:NameNode administ转载 2013-11-14 11:24:42 · 1028 阅读 · 0 评论