Hadoop/CDH
文章平均质量分 78
小小程序员1986
这个作者很懒,什么都没留下…
展开
-
CDH5离线安装(最新版5.3.3内置hadoop2.5.0)
首先给出官方的离线安装http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/installation_installation.html#../topics/cm_ig_install_path_c.html 由于是最新版网上上资料比较少,很多问题只能翻墙去找答案。大家只要严格按照我的步骤一步原创 2016-08-28 13:55:52 · 1568 阅读 · 0 评论 -
Hive SQL汇总
创建数据库create database if not exists sopdmcomment 'this is test database'with dbproperties('creator'='gxw','date'='2014-11-12') --数据库键值对属性信息location '/my/preferred/directory';显示所有表show tables ;显示表的描述信息d原创 2016-08-28 14:05:28 · 1006 阅读 · 0 评论 -
hive内置函数详解(分析函数、窗口函数)
650) this.width=650;" src="http://s3.51cto.com/wyfs02/M00/75/97/wKioL1Y9oZiAkspGAAMsRcKYMDs505.jpg" title="捕获.PNG" alt="wKioL1Y9oZiAkspGAAMsRcKYMDs505.jpg" />cli命令show functions;desc function concat;d原创 2016-08-28 14:05:44 · 3931 阅读 · 0 评论 -
hdfs常用API和putMerge功能实现
所需jar包650) this.width=650;" src="http://s1.51cto.com/wyfs02/M00/76/02/wKioL1ZIK6Hy-MbWAAAULWIONq4795.png" title="捕获.PNG" alt="wKioL1ZIK6Hy-MbWAAAULWIONq4795.png" />一、URL API操作方式import java.io.InputStr原创 2016-08-28 14:05:47 · 1364 阅读 · 0 评论 -
pdsh、ClusterSSH和mussh集群管理软件
我是想把 /etc/hosts 文件 分发到 10.205.10.11至20机器上安装命令sudo yum -y install clusterssh pdsh pdsh-rcmd-ssh pdsh-rcmd-rsh musshpdcp -w ssh:root@srv[11-20] /etc/hosts /etc/pdsh软件包还包括一个pdcp命令,可以将文件拷贝到一组机器上,用法如下:pdsh原创 2016-08-28 14:05:58 · 646 阅读 · 0 评论 -
hadoop 2.X HA详细配置
hadoop-daemon.sh与hadoop-daemons.sh区别hadoop-daemon.sh只能本地执行hadoop-daemons.sh能远程执行1. 启动JNhadoop-daemons.sh start journalnodehdfs namenode -initializeSharedEdits //复制edits log文件到journalnode节点上,第一次创建得在格式化原创 2016-08-28 14:06:01 · 528 阅读 · 0 评论 -
hive 安装mysql作为元数据
下载hive的安装包解压在hadoop集群上的任何一台机器上都可以mysql jdbc驱动拷贝到hive的lib目录下hive-env.shHADOOP_HOME=/opt/modules/hadoop-2.2.0修改hive-site.xml javax.jdo.option.ConnectionURL jdbc:mysql://localhost:3306/hive?cre原创 2016-08-28 14:06:07 · 414 阅读 · 0 评论 -
hive 安装mysql作为元数据
下载hive的安装包解压在hadoop集群上的任何一台机器上都可以mysql jdbc驱动拷贝到hive的lib目录下hive-env.shHADOOP_HOME=/opt/modules/hadoop-2.2.0修改hive-site.xml javax.jdo.option.ConnectionURL jdbc:mysql://localhost:3306/hive?cre原创 2016-08-28 14:06:10 · 484 阅读 · 0 评论 -
spark 1.X standalone和on yarn安装配置
安装JDK 1.7以上 Hadoop 2.7.0不支持JDK1.6,Spark 1.5.0开始不支持JDK 1.6安装Scala 2.10.4安装 Hadoop 2.x 至少HDFSspark-env.shexport JAVA_HOME=export SCALA_HOME=export HADOOP_CONF_DIR=/opt/modules/hadoop-2.2.0/etc/hado原创 2016-08-28 14:06:13 · 601 阅读 · 0 评论 -
文本挖掘分词mapreduce化
软件版本paoding-analysis3.0650) this.width=650;" src="http://s2.51cto.com/wyfs02/M00/76/04/wKiom1ZIMLnSpXvwAABoYgiZJjY303.png" title="捕获.PNG" alt="wKiom1ZIMLnSpXvwAABoYgiZJjY303.png" />项目jar包和拷贝庖丁dic目录到项目原创 2016-08-28 14:06:16 · 1812 阅读 · 0 评论 -
统计和TopKey
key和value的默认分隔符为tab键设置分隔符程序一package org.conan.myhadoop.TopKey;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.原创 2016-08-28 14:06:19 · 1010 阅读 · 0 评论 -
mahout0.11 taste框架推荐引擎api
650) this.width=650;" src="http://s5.51cto.com/wyfs02/M01/76/1C/wKioL1ZKyGuzB55-AAZC2Akf-Og878.png" title="捕获.PNG" alt="wKioL1ZKyGuzB55-AAZC2Akf-Og878.png" />所需jar包650) this.width=650;" src="http://s3原创 2016-08-28 14:06:22 · 849 阅读 · 0 评论 -
Hive 调优总结
一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict; 默认值:strict 描述:strict是避免全分区字段是动态的,必须有至少一个原创 2016-08-28 14:05:16 · 488 阅读 · 0 评论 -
Spark on yarn
650) this.width=650;" src="http://s3.51cto.com/wyfs02/M02/74/55/wKiom1YaA-yz3YFCAAGJmO2kXJc602.jpg" title="捕获.PNG" alt="wKiom1YaA-yz3YFCAAGJmO2kXJc602.jpg" />ResourceManager 资源管理 只有一个(资源以Container表原创 2016-08-28 14:05:05 · 599 阅读 · 0 评论 -
Avro数据序列化
序列化:把结构化的对象转换成字节流,使得能够在系统中或网络中通信需要把数据存储到hadoop的hbase常用序列化系统thrift (hive,hbase)Protocol Buffer (google)avro650) this.width=650;" src="http://s3.51cto.com/wyfs02/M02/74/55/wKiom1YZ-ViwZ_opAATkQiT1bZQ1原创 2016-08-28 14:05:02 · 717 阅读 · 0 评论 -
Oozie的web界面安装、配置和运行(CDH环境)
1 问题描述和原因分析从cloudera manager界面进入Oozie的web界面的时候出现下面的错误650) this.width=650;" title="捕获.PNG" alt="wKioL1VMkkvBIPU8AAEQAHfhIZc456.jpg" src="http://s3.51cto.com/wyfs02/M02/6C/94/wKioL1VMkkvBIPU8AAEQAHfhIZc原创 2016-08-28 13:56:09 · 3240 阅读 · 0 评论 -
hadoop新特性通过NFSv3挂载HDFS到本地目录
原理NFS允许用户像访问本地文件系统一样访问远程文件系统,而将NFS引入HDFS后,用户可像读写本地文件一样读写HDFS上的文件,大大简化了HDFS使用,这是通过引入一个NFS gateway服务实现的,该服务能将NFS协议转换为HDFS访问协议,具体如下图所示。650) this.width=650;" title="捕获.PNG" alt="wKiom1VPeNOytasGAADVSLPdFk原创 2016-08-28 13:56:12 · 2995 阅读 · 0 评论 -
MapReduce核心map reduce shuffle (spill sort partition merge)详解
Shuffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。Shuffle的正常意思是洗牌或弄乱,可能大家更熟悉的是Java API里Collections.shuffle(List)方法,它会随机地打乱参数list里的元素顺序。如果你不知道MapReduce里Shuffle是什么,那么请看这张图:650) this.wi原创 2016-08-28 14:03:45 · 3780 阅读 · 0 评论 -
hadoop中slot简介(map slot 和 reduce slot)
Slots是Hadoop的一个重要概念。然而在Hadoop相关论文,slots的阐述难以理解。网上关于slots的概念介绍也很少,而对于一个有经验的Hadoop开发者来说,他们可能脑子里已经理解了slots的真正含义,但却难以清楚地表达出来,Hadoop初学者听了还是云里雾里。我来尝试讲解一下,以期抛砖引玉。首先,slot不是CPU的Core,也不是memory chip,它是一个逻辑概念,一个节原创 2016-08-28 14:03:48 · 924 阅读 · 0 评论 -
mapreduce 模板代码
jai包 org.apache.hadoop hadoop-core 1.2.12.x以后就拆成一些零散的包了,没有core包了代码:package org.conan.myhadoop.mr;import java.io.IOException;import org.apache.hadoop.conf.Configuration;//org.apache.h原创 2016-08-28 14:04:02 · 486 阅读 · 0 评论 -
HIVE JDBC连接详解
package org.conan.myhadoop.mr;import java.sql.Connection;import java.sql.DriverManager;import java.sql.ResultSet;import java.sql.SQLException;import java.sql.Statement;public class HiveJDBCCon原创 2016-08-28 14:04:11 · 9784 阅读 · 0 评论 -
Hive 混合函数 UDTF UDF UDAF详解
混合函数可以使用java中的方法java_method(class,method[,arg1[,arg2...]])或者reflectHive版本1.2.1UDTF 用户定义表函数(表函数)一行变成多行配合lateral viewhive的Lateral viewhttp://blog.sina.com.cn/s/blog_7e04e0d00101csic.htmlUDF 重写evaluate方法原创 2016-08-28 14:04:22 · 1633 阅读 · 0 评论 -
flume+kafka+hdfs详解
flume架构图650) this.width=650;" src="http://s3.51cto.com/wyfs02/M00/74/0A/wKiom1YPrdjguqxiAAJR5GnVzeg068.jpg" title="课时23:实战案例_flume和kafka安装.avi_20151003_183018.077.jpg" alt="wKiom1YPrdjguqxiAAJR5GnVzeg原创 2016-08-28 14:04:34 · 4824 阅读 · 0 评论 -
sqoop详解
版本 1.4.3sqoop help 命令帮助对应数据库的jdbc jar包复制到sqoop lib目录下1.把数据从mysql导入hdfs(默认是/user/中sqoop import --connect jdbc:mysql://localhost:3306/hive --username root --password root --table TBLS --fields-termina原创 2016-08-28 14:04:42 · 447 阅读 · 0 评论 -
storm-kafka(storm spout作为kafka的消费端)
storm是grovvy写的kafka是scala写的storm-kafka storm连接kafka consumer的插件下载地址:https://github.com/wurstmeister/storm-kafka-0.8-plus除了需要storm和kafka相关jar包还需要google-collections-1.0.jar以及zookeeper相关包 curator-framew原创 2016-08-28 14:04:48 · 3715 阅读 · 0 评论 -
storm详解
650) this.width=650;" src="http://s3.51cto.com/wyfs02/M01/74/45/wKiom1YXgJTSc0iIAANa7Kqg9ks285.jpg" title="捕获.PNG" alt="wKiom1YXgJTSc0iIAANa7Kqg9ks285.jpg" />650) this.width=650;" src="http://s3.51cto原创 2016-08-28 14:04:51 · 379 阅读 · 0 评论 -
mahout 0.8入门
mahout-distribution-0.8命令行对应哪个类可以查看源码配置文件driver.classes.default.propsmahout的APIhttps://builds.apache.org/job/Mahout-Quality/javadoc/ mahout实战参考博客:http://itindex.net/detail/45259-mahout-%E7%94%B5%E5%BD原创 2016-08-28 14:06:24 · 522 阅读 · 0 评论