谜失落的世界-CSDN博客

原创 MYSQL8.0 MGR数据不一致处理办法

MYSQL8.0 MGR数据不一致处理办法重新启动的前提是数据要保持一致，否则后续还会因为数据不一致报错在组复制重启之前先手动处理数据，保证数据一致。从库是只读的，手动同步数据的时候需要关闭只读的配置修复mysql:super_read_only=OFFshow global variables like "%read_only%";set global read_only=on;set global super_read_only=on;手动同步数据之后在正常的节点执行：sho

2021-04-07 17:20:51 851 1

原创关于mysql的tinyint(1)自动转成布尔类型的处理

现象：java往es同步数据的时候有一个字段，手动改mapping的为byte,short,long，依然报错：Preview of field's value: 'false'原因：应该是mysql的导出Jar会默认将tinyint(1)转换为boolean解决办法：(1)数据库改为tinyint(4)，tinyint(4)就会默认转成数字，es的mapping用byte就能接受(2)连接数据库的url中添加&TreatTinyAsBoolean=false&tinyInt

2021-01-29 18:47:15 3054

原创 Kafka权限配置

参考官网链接：http://kafka.apache.org/22/documentation.html#security_sasl此处使用的是权限方式是SASL/SCRAM-SHA-256 and SASL/SCRAM-SHA-512需要注意的是这个方式：starting at version 0.10.2.0使用SASL/SCRAM的原因是在不用关闭kafka的情况下可以动态的添加用户读写权限本文章以apache2.2.0举例，单机版。操作步骤:1、zookeeper上创建用

2020-05-11 17:01:48 2167

原创 Kafka跨集群迁移方案MirrorMaker

原理MirrorMaker 是Kafka 官方提供的跨数据中心的流数据同步方案。原理：通过从Source Cluster消费消息然后把消息生产到Target Cluster。操作：用户只要通过简单的consumer配置和producer配置，然后启动Mirror，就可以实现准实时的数据同步。实现步骤：环境：(单机测试)Source A机器： IP 111...

2020-04-09 15:38:31 986

原创精选SQL

1：父子关系的级联查询Mysql中实现：建表：CREATE TABLE t(id INT PRIMARY KEY,nameNVARCHAR(10),parentId INT)；插入数据：INSERT INTO tSELECT 1,'北京市',0UNION ALL SELECT 2,'山东省',0UNION ALL SELECT 3,'昌平区',1UNION ALL ...

2019-12-17 17:27:06 169

原创 Lateral View Outer

语法：lateralView: LATERAL VIEW [OUTER] udtf(expression) tableAlias AS columnAlias (',' columnAlias) * fromClause: FROM baseTable (lateralView)*Lateral view outer：当table function不输出任何一行时，对应的输入行在Late...

2019-12-17 16:39:36 3019

原创 explode和LATERAL VIEW的使用

一：explode使用1.1解释hive wiki对于expolde的解释如下：explode() takes in an array (or a map) as an input and outputs the elements of the array (map) as separate rows. UDTFs can be used in the SELECT expression l...

2019-12-17 16:10:45 585

原创 MR on Yarn

相关角色介绍ResourceManager 资源作业管理者 Applications Manager 作业管理，是所有作业的老大，web界面信息从这里查询Resource Scheduler 资源调度NodeManager 节点者ApplicationsMaster：某个job的老大，他来申请资源以及管理和监控整个作业生命周...

2019-12-16 15:04:48 196

原创 Yarn的生产参数调优

官网默认参数https://hadoop.apache.org/docs/r3.1.1/hadoop-yarn/hadoop-yarn-common/yarn-default.xmlguan参数调优1.ContainerContainer就是Yarn中的一个动态资源分配的概念。其拥有一定的内存+核数（memory+vcore），由RM分配给ApplicationMaster或MapTask...

2019-12-15 01:03:30 551

原创 Hdfs读写流程（读进写出）

目录读数据写数据读数据1 Client调用FileSystem.open(filePath)方法，与NameNode进行【rpc】通信，返回该文件的部分或者全部的block列表，也就是返回FSDataInputStream对象。2 Client调用FSDataInputStream对象read()方法；a.与第一个块最近的DataNode进行read,读取完成后，会c...

2019-12-12 23:41:56 194

原创使用Map实现树状的查询

ES中表结构：角色权限关联关系表：权限表：权限表中有对应的父子关系Java实现：第一步：定义一个JavaBean：public class PrivilegeTreeBean implements Serializable { //节点的ID private Long privilegeId; // 节点的名字 private Strin...

2019-11-27 14:09:01 633

原创 Es数据库小计

1、ES的数据浏览展示某个的表的时候有的字段是展示不全的。需要点开某一行才能看到完整的原始数据。

2019-11-22 15:01:55 137

原创 HashMap的架构原理

目录hashmap的工作原理Java7中HashMap的结构 Java8中HashMap的结构引申引申1：hashMap添加对象为什么要同时重写hashcode和equals方法？引申2：为什么HashMap中链表长度超过8会转成红黑树，长度低于6会还原成链表hashmap的工作原理通过hash的方法，通过put和get存储和获取对象。存储对象时，我们将k...

2019-10-29 21:46:39 262

原创 Idea踩坑

1、热部署：问题：<scope>provided</scope>这个标签的注释一旦被放开，热部署效果就失效<groupId>org.springframework.boot</groupId> <artifactId>spring-boot-devtools&...

2019-10-29 17:10:28 1901

原创大数据行式存储和列式存储比较

压缩率和压缩速度成反比：压缩比：bzip2 > gzip > lzo > snappy ，压缩速度：snappy > lzo> gzip > bzip2压缩以及解压是高消耗cpu的过程，故若机器的负载很高时就不能使用压缩，资源不够可通过扩容快速解决Hive中建表（列式+压缩）语句：（1）orc格式#Hive中默认压缩是zlib，写...

2019-10-27 11:56:54 625

原创 MR过程+shuffle过程

MapReduce的执行流程Shuffle过程Map的输出结果首先被缓存到内存，当环状缓冲区达到80% （默认大小为100MB），就会启动溢写(Spill)操作，当前启动溢写操作时，首先把缓存中的数据进行分区(partition。默认对key hash后再除以reduce task数量取模。默认的取模方式只是为了平均reduce的处理能力)，对每个分区的数据进行排序和合并。之后再写入到...

2019-10-26 23:28:25 1062

原创 Hadoop压缩使用场景（从输入、输出和中间过程来考虑）

1、文本（Text）默认是支持分片的;什么是分片？输入分片（Input Split）：在进行map计算之前，mapreduce会根据输入文件计算输入分片（input split），每个输入分片（input split）针对一个map任务，输入分片（input split）存储的并非数据本身，而是一个分片长度和一个记录数据的位置的数组。分片的好处是能增加map的数量，提高并行度。...

2019-10-26 22:52:50 211

原创 Elasticsearch API 匹配空或者是null字段

//查询非空的数据 QueryBuilders.boolQuery().must(QueryBuilders.regexpQuery(scheduleAttributeFilter.getCode(), "[0-9]+"));//查询空的数据注释掉的这种返回空//QueryBuilders.boolQuery().must(QueryBuilders.existsQuery(...

2019-10-16 17:53:53 2104

原创 key not found: _PYSPARK_DRIVER_CALLBACK_HOST报错

问题：用pycharm跑代码报错： key not found: _PYSPARK_DRIVER_CALLBACK_HOST查看报错的源码，定位问题/usr/lib/python2.7/site-packages/pyspark/java_gateway.py 第94行报错找不到环境变量_PYSPARK_DRIVER_CALLBACK_HOST重新换一下pyspark的安装包...

2019-09-02 12:03:23 1254

原创 tar.xz文件解压

创建tar.xz文件： tar cvf xxx.tar xxx （xxx.tar），然后 xz -z xxx.tar （xxx.tar.xz）解压tar.xz文件： xz -d xxx.tar.xz （xxx.tar ）然后 tar xvf xxx.tar来解包。

2019-08-30 13:56:45 153

原创记一次linux网卡的修复操作

前提:由于公司整区块链，想用自己的环境测试，因此给自己的电脑加了内存。结果开到4台虚拟机的时候，CPU爆满。导致之前自己的大数据集群中的某个节点坏掉了。。。。折腾了一上午+半下午终于搞定出现的现象：大数据节点中的某台服务器的有线网卡直接消失了。之前的ip也消失了，也不能上网了。解决思路：第一次尝试：既然之前的网卡不能用，移除旧的然后新加一个新的NAT的网络适配器，然后重新启动网络...

2019-08-21 16:56:34 892

原创 ORACLE函数总结：connect by,with as,正则表达式应用

1、CONNECT BY:层次查询子句，一般用于树状或者层次结果集的查询创建连续的月份SELECT TO_CHAR(ADD_MONTHS(TO_DATE('2019' || '0830', 'yyyy-mm-dd'), -LEVEL + 1), 'YYYY-MM') monFROM dualCONNECT BY LEVEL < 36 --...

2019-08-13 16:20:31 397

原创将文件快速导入到oracle数据库的几种办法

1、imp2、impdb3、sqlldr工具通过controller文件的形式（nologging+并行参考：https://blog.csdn.net/qufenglm/article/details/80638509）4、直接路径（direct-path）insert提升性能参考：https://blog.csdn.net/ljunjie82/article/detai...

2019-08-05 13:30:02 833

原创 Flume apache和cdh版本的差异

apache版本的flume和cdh版本的flume在配置上是有一些区别的需要注意：例如：cdh版本1.6.0-cdh5.7.0中kafka sink 的配置中是brokerList,但是apache 1.7.0中是kafka.bootstrap.servershttp://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.7.0/F...

2019-06-19 17:09:19 722 1

原创 Flume扇入模型

机器信息：Agent1:NN1Agent2:NN2Agent3:RM配置：agent1:# Name the components on this agenta1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the custom exec sourcea1.sources.r1....

2019-06-19 11:45:10 206

原创 tail -F和tail -f的区别

tail -help的解释-f, --follow[={name|descriptor}] output appended data as the file grows; an absent option argument means 'descriptor' -F ...

2019-06-17 13:50:02 943

原创修改Hadoop日志格式为json

1、如果是CDH版本的找到"NameNode Logging Advanced Configuration Snippet (Safety Valve)",配置log4j.appender.RFA.layout.ConversionPattern = {"time":"%d{yyyy-MM-dd HH:mm:ss,SSS}","logtype":"%p","loginfo":"%c:%m"...

2019-06-17 13:39:33 216

转载 Flume源码导入IDEA

参考：https://www.jianshu.com/p/bced0babd3f0

2019-06-17 13:27:07 855

原创 flume定制之 taildir支持子文件目录

1、查看官网，taidir的路径中只有文件名是支持正则表达式的，路径不支持。2、测试说明:taildir-->memory-->kafkaflume source的配置文件：将配置文件中的路径修改为/data/taildir/*/.*log的话，flume会报错3、如何修改？taildir监控目录时,默认是不支持路径正则表达式的, 源码实现将最后...

2019-06-14 13:12:04 1101

原创 Flume输出hdfs sink时自带时间戳后缀

flume往hdfs中写入文件的时候，文件名会默认生成一个时间戳原因见下面的源码分析：http://www.aboutyun.com/thread-21422-1-1.html

2019-05-23 15:03:13 1888 1

原创 Azkaban安装时报错信息整理

问题：azkban Cannot request memory (Xms 0 kb, Xmx 0 kb) from system for job command, sleep for 60 secs and retry, attempt 4 of 720原因：azkaban默认需要3G的内存，剩余内存不足则会报异常。解决办法：修改azkaban-solo-server/build/dist...

2019-05-22 10:12:07 375

原创 azkaban安装中遇到的问题

解决办法：参考https://blog.51cto.com/aiilive/1420837org.jasypt.exceptions.EncryptionOperationNotPossibleException: Encryption raised an exception. A possible cause is you are using strong encrypti...

2019-05-19 00:05:26 833

原创 Hadoop支持Lzo和分片

Hadoop支持Lzo和分片为了节省磁盘空间，文件的存储往往需要压缩，有的需要压缩比大，有的需要压缩速度快。而对于一套计算的结果存储，如多个MapReduce之间，需要能支持分片的压缩方式。lzop就是个可以支持分片的压缩方式，非常适合用于多个MapReduce之间的计算中间结果存储。在Hadoop上安装lzop与在hive上的使用，并且支持分片功能参考：https://segmentfau...

2019-05-18 10:25:10 428

原创 Spark Cluster Mode Overview

官网参考：http://spark.apache.org/docs/latest/cluster-overview.html#cluster-mode-overviewSpark应用程序作为集群上的独立进程集运行，由主程序(称为驱动程序)中的SparkContext对象协调。步骤描述：1、为了在集群上运行，SparkContext首先会连接到集群管理器(要么是Spark自己的独立的集群管...

2019-05-10 16:37:02 162

原创 hadoop datanode和namenode节点clusterIDs不一致处理

bug信息：java.io.IOException: Incompatible clusterIDs in /usr/local/hadoop-2.6.0-cdh5.7.0/data/dfs/data: namenode clusterID = CID-2533ed7c-6c85-42a1-8ea4-8e12a7872913; datanode clusterID = CID-ee22bb7...

2019-04-23 22:01:25 1218

原创 Windows10搭建ElasticSearch 并配置head

1、安装前提windows下已经安装好了jdk8的版本2、下载ElasticSearchhttps://www.elastic.co/cn/downloads/elasticsearch#ga-release ------下载zip包，将下载的zip文件解压后，直接运行bin下的elasticsearch.bat这个文件，然后访问本机的127.0.0.1:9200,出现以下图说明es安装成功。图一...

2018-02-08 17:02:07 23047 7

原创 sub和gsub的记录

将文件中的第一列的中的某个字符a替换成字符b（两种实现方法：第一匹配到的全部替换，第二：只替换匹配到的第一个字符）例如：将bb.csv文件中第一列的4180替换为418E1bb.csvaa,bb,cc41804180,156187874180,232323418804180,161614180,jbdns4180交流交流18404180,灰度黑发，4180哈哈,aa,4180命令一：awk -F'

2018-01-19 13:56:42 273

原创 sub和gsub的记录

将文件中的第一列的中的某个字符a替换成字符b（两种实现方法：第一匹配到的全部替换，第二：只替换匹配到的第一个字符）例如：将bb.csv文件中第一列的4180替换为418E1bb.csvaa,bb,cc41804180,156187874180,232323418804180,161614180,jbdns4180交流交流18404180,灰度黑发，4180哈哈,aa,4180命令一：awk -F'

2018-01-19 13:55:02 2194

原创 /usr/local/mysql/bin/mysqld: Can't find file: './mysql/plugin.frm' (errno: 13 - Permission denied) 2

第一次报错： Can't connect to local MySQL server through socket '/tmp/mysql.sock尝试解决的时候发现找不到mysql.sock这个文件生成此文件的时候第二次报错：/usr/local/mysql/bin/mysqld: Can't find file: './mysql/plugin.frm' (errno: 13 -

2018-01-09 14:51:28 2888

原创 Resolving www.linuxde.net... failed: Name or service not known. wget: unable to resolve host address

问题一:wget使用不了[root@test local]# wget dev.mysql.com/get/mysql-community-release-el6-5.noarch.rpm^C[root@test local]# wget http://www.linuxde.net/testfile.zip--2018-01-08 20:01:16-- http://www.linu

2018-01-09 14:33:46 8974

空空如也

空空如也