hadoop
liuwei063608
这个作者很懒,什么都没留下…
展开
-
CDH优点
CDH为什么更好?笔者罗列了以下几点:CDH基于稳定版Apache Hadoop,并应用了最新Bug修复或者Feature的Patch。Cloudera常年坚持季度发行Update版本,年度发行Release版本,更新速度比Apache官方快,而且在实际使用过程中CDH表现无比稳定,并没有引入新的问题。Cloudera官方网站上安装、升级文档详细,省去Google时间。CDH支持Yum/A转载 2015-06-01 09:57:20 · 3861 阅读 · 0 评论 -
hdfs java操作
hdfs java操作package hdfs;import java.io.FileInputStream;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataOutputStream;import org.apache.had原创 2016-12-22 20:37:34 · 379 阅读 · 0 评论 -
hortonworks HDP集群安装
原来公司的大数据服务器都是CDH,这次客户要求用HDP,记录一下环境安装的过程第一部分和CDH安装基本相同,都是做准备工作1.准备工作1.1.SSH免密码登录通过配置rsa等配置免密码登陆1.2.修改host10.0.0.21 server2110.0.0.22 server2210.0.0.23 server2310.0.0.24 server241.3时原创 2016-10-08 17:38:29 · 3785 阅读 · 2 评论 -
hortonworks ambari集成impala
1.下载ambari-impala-servicesudo git clone https://github.com/cas-bigdatalab/ambari-impala-service.git /var/lib/ambari-server/resources/stacks/HDP/2.4/services/IMPALA2./etc/yum.repos.d新建impala.r原创 2016-10-11 14:36:54 · 3803 阅读 · 1 评论 -
Hadoop 通用数据摄取框架 Gobblin
Gobblin 是 Hadoop 通用数据摄取框架,可以从各种数据源中提取,转换和加载海量数据。比如:数据库,rest APIs,filers,等等。Gobblin 处理日常规划任务需要所有数据摄取 ETLs,包括作业/任务规划,任务分配,错误处理,状态管理,数据质量检测,数据发布等等。Gobblin 通过同样的执行框架从不同数据源摄取数据,在同一个地方管理所有不同数据源的元数据。同时结合转载 2016-06-20 16:51:21 · 755 阅读 · 0 评论 -
Hadoop中HDFS常用命令
hadoop fs -mkdir /tmp/input 在HDFS上新建文件夹 hadoop fs -put input1.txt /tmp/input 把本地文件input1.txt传到HDFS的/tmp/input目录下 hadoop fs -get input1.txt /tmp/input/input1.txt 把HDFS文件拉到本转载 2016-06-15 11:47:57 · 375 阅读 · 0 评论 -
cdh kafka环境搭建
3.上传以下文件4.按照http://www.tuicool.com/articles/ENjmeaY安装cdh和kafka原创 2016-02-17 14:08:18 · 1975 阅读 · 0 评论 -
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Wi
Exception in thread "main" java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/String;I)Z解决方法hadoop 2.2 windows 环境下调试的问题(mac不存在此问题),需要替换%HADOOP_HO原创 2015-12-04 15:23:23 · 12967 阅读 · 0 评论 -
CDH集群集成kafka
搭建要求:1.CDH环境已经搭建成功,在CDH上搭建kafka,要求用CDH上zookeeper管理kafka而不用kafka自带的zookeeper2.kafka_2.11-0.8.2.1.tgz已经上传到kafka集群环境中搭建步骤1. 主机操作修改hosts10.10.0.11 s1-110.10.0.12 s1-2 10.10.0.13 s1-310.1原创 2015-06-03 23:19:25 · 8577 阅读 · 0 评论 -
spark bulkload数据到hbase
spark bulkload数据到hbase1. 查询数据放到dataframe查询数据放到dataframe val imDate = sql(imSQL)2. 放入指定格式的RDD并排序放入指定格式的RDD并排序 val res = basicData.rdd .flatMap { row => { val kvs = ...原创 2018-10-19 11:42:47 · 1211 阅读 · 0 评论