![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HADOOP
xcagy
CAGY官方博客
展开
-
dataX从hbase抽数到postgresql
python datax.py ./hbase_pg.jso#抽数的JSON文件{ "job": { "content": [ { "reader": { "name": "hbase11xreader", "parameter": { "hbaseConfig": { .原创 2022-05-24 17:28:20 · 471 阅读 · 0 评论 -
phoenix映射hbase的简单操作
hbase shell#创建表,插入数据create 'cagy','info'put 'cagy','rowkey01','info:name','cagy'put 'cagy','rowkey02,'info:name','cagy2'#映射表,以及查询[root@namenode bin]# ./sqlline.py Setting property: [incremental, false]Setting property: [isolation, TRANSACTION_R.原创 2022-05-24 17:26:11 · 267 阅读 · 0 评论 -
sqoop(hive到pgsql)
hive="/usr/bin/hive"field_segmentation="\001"source_database="postgres"source_username="postgres"source_pwd=""source_ip=""source_port="5432"source_pgsqldb=""external_storage_path="/user/hive/warehouse/文件路径"if [ -n "$1" ] ;then do_day=$1els..原创 2021-11-10 10:30:57 · 1479 阅读 · 6 评论 -
SQOOP(hive抽取到hive)
hive='/usr/bin/hive'hive_database='cagy'if [ -n "$1" ] ;then do_day=$1else do_day=`date -d "-1 day" +%F`fistr_sql="\use $hive_database;with a as (select * from table where dt='2222-22-22')insert overwrite table 被插入的表名字 partition(dt...原创 2021-11-10 10:28:02 · 1794 阅读 · 0 评论 -
用SQOOP抽取Oracle到HIVE
# 定义变量名字hive='/usr/bin/hive'hive_database=''field_segmentation='\001'external_storage_path='/user/hive/warehouse/qi_tcte/ods'source_database=''source_username=''source_pwd=''source_ip=''source_port='1521'# 日期格式为 yy-MM-dd 2020-01-01if [ -n "$1.原创 2021-11-10 10:09:23 · 1998 阅读 · 0 评论 -
Sqoop抽取hive字段错位的解决办法
1.观察是不是设置了分隔符2.select的时候把每一个字段都写出来3.检测原表的字段顺序和目标表的字段顺序是否一致原创 2021-11-01 16:56:25 · 689 阅读 · 0 评论 -
列出HDFS目录,删除HDFS文件
hdfs dfs -ls -R /user/hive/warehouse/原创 2021-10-09 12:23:31 · 559 阅读 · 0 评论 -
hadoop集群日常
service ntpd stopntpdate 172.16.13.3echo 1 > /proc/sys/vm/drop_cachesecho 2 > /proc/sys/vm/drop_cachesecho 3 > /proc/sys/vm/drop_caches原创 2020-11-26 18:20:16 · 78 阅读 · 0 评论 -
docker安装启动单节点CDH的秘籍
环境:docker18.X系统:centos7.6配置:16核32Gdocker pull cloudera/quickstart:latestdocker run \ -id \ --hostname=quickstart.cloudera \ --privileged=true \ -p 8020:8020 -p 7180:7180 -p 21050:21050 -p 50070:50070 -p 50075:50075 \ -p 50010:50010 -p 50020:5002.原创 2020-08-11 09:40:28 · 491 阅读 · 0 评论 -
HIVE获取大于当天的时间戳
SELECT unix_timestamp(from_unixtime(unix_timestamp(),'yyyy-MM-dd 00:00:00'));获取当天0点开始的时间戳原创 2020-02-20 11:31:13 · 3318 阅读 · 0 评论 -
数据湖的简单解释
数据湖轻松地收集数据:管他什么样的数据,我先把它存到我的库里面,不清洗,不过滤,直接存,数据水分很大,所以叫数据湖,要使用数据的时候再去编程解析到我定义好的数据库表里面。而数据仓库,就是提前建好数据库的表结构,把数据处理好之后,再存入,所以数据仓库不能轻松收集数据。从数据中发掘更多价值:数据仓库和数据市场由于只使用数据中的部分属性(字段少,内容少),所以只能回答一些事先定义好的问题;而数据...原创 2020-01-11 17:17:49 · 357 阅读 · 0 评论 -
kettle连接hive2 HDP2.6
1.配置插件文件夹的属性hdp252.查看依赖项的路径locate */hive/lib/hive*jar3.将hive开头的jar文件,拷贝到kettle的两个lib下面,一个是主目录的lib,另一个是插件hdp下面的lib4.打开kettle,然后hive2 输入IP 端口10000 数据库名称 账号 测试如果有不会的可以找我QQ11018230...原创 2019-11-25 19:38:14 · 347 阅读 · 0 评论 -
hbase的thrift接口c#
1、get(byte[] tableName,byte[] row,byte[] column,Dictionary<byte[],byte[]> attribute) get方法可以查询指定表名,行健以及列名对应值的最新版本,方法返回值类型为List<TCell>2、getRow(byte[] tableName,byte[] row,Dictionary&l...原创 2019-08-22 18:03:50 · 222 阅读 · 0 评论 -
mapreduce基础JOB操作
package cagy.mapreduce.wordcount;import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import org.apache....原创 2019-02-12 21:54:34 · 255 阅读 · 0 评论 -
HDFS常用基础命令
hadoop fs -cat /wc/output1/part-r-00000hadoop fs -ls /wc/output1hadoop fs -rm -r /wc/output1 删除目录以及下面的文件hadoop fs -put hl.txt /wc/data //当前目录的文件发到HDFS目录hadoop jar wc.jar cagy.mapreduce.wor...原创 2019-02-12 21:51:10 · 323 阅读 · 0 评论 -
hadoop硬件配置 高可用 datanode namenode硬件配置
每个分布式文件系统分块在NameNode的内存中大小约为250个字节,此外还要加上文件和目录所需的250字节空间。500字节 一个块假设我们有5000个平均大小为20GB的文件并且使用默认的分布式文件系统分块大小(64MB)同时副本因子为3,5000*20GB=102400 000M=97T那么NameNode需要保存5千万个分块的信息,这些分块的大小加上文件系统的开销总共需要1.5...原创 2019-02-12 11:26:53 · 1595 阅读 · 0 评论 -
java操作hdfs
package cagy.hap;import java.io.FileNotFoundException;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.Fil...原创 2019-02-10 00:06:17 · 108 阅读 · 0 评论 -
hadoop 2.4.1单机安装教程 99.9%成功率
1.先自己安装centos7.X 64位2.自己想办法安装JDK1.7,记住不要open sdk的3.准备好hadoop-2.4.1 64位,官网下载默认是32位的,所以上淘宝买CSDN下载4.修改系统配置vim /etc/sysconfig/network NETWORKING=yes HOSTNAME=k1 vim /etc/hosts...原创 2019-02-08 21:37:51 · 179 阅读 · 0 评论