大数据
青云游子
大数据开发工程师
展开
-
doris修改列类型
【代码】doris修改列类型。原创 2024-01-30 17:07:30 · 317 阅读 · 0 评论 -
doris批量创建分区,shell脚本
【代码】doris批量创建分区,shell脚本。原创 2024-01-30 16:44:21 · 259 阅读 · 0 评论 -
fastjson2序列化报错OutOfMemoryError
报错如下,这里用的是阿里的com.alibaba.fastjson2,该版限制了最大可以大小是64M,超过了就报错OutOfMemoryError。原创 2024-01-29 19:29:20 · 736 阅读 · 0 评论 -
MySQL自动更新时间字段
自动更新当前时间戳(当任何字段的值被更新时,该字段会自动更新为当前时间)添加一个自动更新的时间戳字段。原创 2024-01-10 19:10:15 · 556 阅读 · 0 评论 -
doris,DUPLICATE KEY类型不支持update
明细表只能支持insert/delete,不支持update语句。update需要通过delete+insert实现。原创 2024-01-10 14:14:51 · 590 阅读 · 0 评论 -
MySQL,原子性rename
【代码】MySQL,原子性rename。原创 2024-01-10 14:02:20 · 359 阅读 · 0 评论 -
doris批量创建分区
注意,以上"FROM(...) TO (...) INTERVAL ..."这种批量创建分区后面指定的INTERVAL还可以指定成YEAR、MONTH、WEEK、DAY、HOUR。原创 2024-01-10 13:59:59 · 456 阅读 · 0 评论 -
报错doris Doris BrokerLoad No source file in this table
查看hive的建表语句,找到location路径,复制到 DATA INFILE 即可。原创 2023-11-16 10:29:31 · 233 阅读 · 0 评论 -
MySQL on duplicate key update用法
如果数据库有值,不想覆盖数据库的值,可以采用以下写法。原创 2023-11-11 13:07:51 · 434 阅读 · 0 评论 -
DataX将MySQL数据同步到HDFS中时,空值不处理可以吗
DataX将MySQL数据同步到HDFS中时,空值存到HDFS中时,默认是存储为\N,这样会有两个缺点:参考文章:原创 2023-07-29 14:14:51 · 2444 阅读 · 0 评论 -
ZooKeeper 选举的过半机制防止脑裂
如果有5台节点,leader联系不上了,其他4个节点由于超过半数,所以又选出了一个leader,当失联的leader恢复网络时,发现集群中已经有了leader,会把自己降为flower,防止出现两个leader。和NameNode不同的是,zookeeper是自己维护选举的,所以可以在程序中加判断避免,而NN是依赖zookeeper选举的,所以NN并不知道出现了脑裂。NN不能自己维护选举的原因是:NN为了保证可用性,而zookeeper为了选举,会牺牲可用性。原创 2023-07-29 11:57:15 · 996 阅读 · 0 评论 -
Hbase事务
HBase提供了各种锁机制和MVCC机制来保证数据的原子性、一致性等特性,其中使用互斥锁实现的行锁保证了行级数据的原子性,使用JDK提供的读写锁实现了Store级别、Region级别的数据一致性,同时使用行锁+MVCC机制实现了在高性能非锁定读场景下的数据一致性。原创 2023-07-18 08:14:18 · 74 阅读 · 0 评论 -
flume小文件问题
增量采集:通过Maxwell从MySQL采集变化的数据,存储到kafka通过flume从kafka采集到HDFS,以日期命名目录这样的话,如果MySQL的数据频繁变化,那么会在HDFS中,产生很多小文件解决办法:在flume的sink中,可以设置每1000条写一个文件,在没达到1000条数据时,文件以.tmp结尾,达到了,去掉.tmp,以.gz结尾。同理,也可以设置时间,大小原创 2023-06-08 14:07:19 · 172 阅读 · 0 评论 -
大数据-集群软件-自动安装部署shell脚本
大数据-集群软件-自动部署shell脚本。原创 2023-07-06 09:20:56 · 292 阅读 · 0 评论 -
HBase-问题
如果想查询1002到1003的数据,则最大值不能写1003,要不然不显示,只能写1004,这样会造成一个问题,会把10031也查询出来,所以可以用1003!是最小的,所以不会查询出别的数据。有的行有3个列,有的行有2个列,那么2个列的在显示的时候,不显示,也不占用空间。每一个Region存储在不同的Region Server上,这就是分布式。一个数据的key,由多个维度组合而成,就叫多维。最终理解HBase数据模型的关键在于。不同的行有不同的列,这就叫稀疏。稀疏、分布式、多维、排序。2.怎么理解分布式?原创 2023-06-30 13:07:25 · 502 阅读 · 0 评论 -
大数据第三次阶段考试题
② 分组查出销售表中所有会员购买金额,同时分组查出退货表中所有会员的退货金额,把会员id相同的购买金额-退款金额得到的结果更新到表会员表中对应会员的积分字段(credits保留两位小数)(1)销售表中的销售记录可以是会员购买,也可以是非会员购买。字段名:time1(访问时间)、interface(访问接口)、ip(访问的IP地址)字段名:dist_id(区组id)、account(账号)、gold(金币)(3)退货表中的退货记录可以是会员,也可是非会员;(2)销售表中的一个会员可以有多条购买记录;原创 2023-06-15 17:05:38 · 755 阅读 · 0 评论