自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ASN_forever的博客

记录技术小白的成长之路!

  • 博客(6)
  • 资源 (3)
  • 收藏
  • 关注

原创 could only be written to 0 of the 1 minReplication nodes. There are 1 datanode(s) running and 1 node

问题描述在使用hive insert overwrite更新分区表的时候出现这个报错。意思是没用可用的DataNode了。解决方案网上看到的类似的解决方案有以下两种:但我这里都不是。我这里的原因是hdfs空间被占满了,而hive在执行的时候会往/tmp下读写大量的临时数据,由于没有空间而报错。默认情况下,hive脚本执行完之后会自动清理掉这些临时文件。这里之所以出现/tmp下大量文件没被清理,是因为之前自己有多次没等hive脚本执行完就Ctrl +c掉了,所以有大量临时文件未

2020-07-28 15:43:30 4678 4

原创 left join条件放在on后面和where后面的区别

on后面的条件:对于左表来说,不管on的条件是否为真,左表都会全部返回 对于右表来说,当on的条件为假时,左表数据用null返回where后面的条件:对连接后的结果表进行过滤如果将右表的过滤条件放在了where中,就可能会出现左连接后部分数据丢失的情况。举个例子有两个表,leader和department下面看这两个SQL执行结果的区别select * from department d LEFT JOIN leader l on d.departmentID=l...

2020-07-13 16:19:01 1132

原创 datax同步mysql数据到hive时,时间类型字段少8小时问题

现象在使用datax同步mysql数据到hive的时候,发现有些时间字段同步之后时间少了8小时。下面分析一下具体情况。背景知识首先,明确一下hive支持的时间类型和datax支持的时间类型有哪些。先看一下datax支持的数据类型:这是datax GitHub上的文档,可以看到datax支持的时间类型只有date和timestamp。接下来看一下hive3.x支持的数据类型:可以看到,hive也支持date和timestamp两种时间类型。但是datax和hive.

2020-07-09 10:13:41 4211 2

原创 datax同步mysql数据到hive

datax hdfswriter文档https://github.com/alibaba/DataX/blob/master/hdfswriter/doc/hdfswriter.md需要注意的是,hdfswriter写入时的字段分隔符,需要用户保证与创建的Hive表的字段分隔符一致,否则无法在Hive表中查到数据。另外,虽然hive3支持decimal格式,但是datax还不支持。。。因此datax作业中应该用string代替decimal。建表语句create external t.

2020-07-07 10:11:40 2310

原创 伪分布Hadoop2.7.6 hbase2.1.8升级到Hadoop3.1.3 hbase2.1.10

如果Hadoop集群配置了高可用,则可以进行不停服的滚动升级。但现在是伪分布的单节点集群,因此需要停止Hadoop及相关的应用,包括hbase、zookeeper等。Hadoop升级因为目前有跑flink作业,checkpoint是放在hdfs上的,因此先停掉对应的job(只需要停job,不用关flink集群) 停止hbase集群:stop-hbase.sh 停止Hadoop集群:stop-all.sh 备份hdfs元数据:包括namenode元数据、datanode元数据、临时数据,我都备份

2020-07-03 16:55:08 544

原创 flink读取有界流时开时间窗遇到的问题

有界流:不知道有没有这个概念,我这里用它表示以流处理的方式读取的批数据,比如streamExecutionEnvironment.fromCollection(...)其实这种做法或需求是比较奇怪的,要用流处理,但读的却是批数据,最好用流处理api处理流数据,用批处理api处理批数据。我这里之所以有这样反人类的设计,是出于批处理一次性读取全部数据有可能会内存溢出的情况下考虑的。想通过流的方式读取批数据来解决。但是后面想了想,这好像简直是一厢情愿。批量读取数据后交给流处理api,这只是处理的过程按

2020-07-01 15:56:46 648 1

canal 1.1.4 安装包合集,包括deployer admin adapter

国内下载GitHub上的安装包会失败或很慢。这里直接把安装包提供给大家,包括deployer,admin和adapter。

2020-04-09

11-深度探索区块链:Hyperledger技术与应用_区块链技术丛书_-_张增骏.epub

本书详细介绍了Hyperledger Fabric1.0的相关技术原理,并通过票据背书项目进行实战演练。对于初学Fabric的同学来说,浅显易懂,上手较快。

2019-05-27

networkx开发文档.pdf

networkx2.3官方开发文档,详细的介绍了各种图及相关算法的使用。

2019-05-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除