笙不凡-CSDN博客

原创 windows中 beego 手动安装bee工具

执行完上述所有的操作后，测试bee。目录下会生成bee.exe文件。进入bee目录，执行编译命令。

2022-10-26 14:53:58 444 2

原创 cdh整合sqoop

找到sqoop的安装路径，我的机器路径为/opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/sqoop/lib将mysql-connector-java-8.0.17.jar包放入测试一下

2022-04-13 15:52:06 542

原创 ERROR KeyProviderCache: Could not find uri with key [dfs.encryption.key.provider.uri]

作业可能会出现以下报错> ERROR org.apache.hadoop.hdfs.KeyProviderCache - Could not find uri with key [dfs.encryption.key.provider.uri] to create a keyProvider !!这个报错是hdfs客户端的一个bug，但并不影响作业正常运行，且在2.8版本之后已经修复相关代码...

2022-03-25 17:28:23 3618

原创 zepeline连接CDH中spark

在spark的解释器中添加spark_home的地址即可

2022-03-21 14:41:13 1372

原创 fatal: unable to access ‘https://***.git/‘: OpenSSL SSL_read: Connection was reset, errno 10054

OpenSSL SSL_read: Connection was reset, errno 10054

2022-03-03 14:27:19 2563

原创在Linux中crontab定时任务不执行date命令原因分析

问题我在crontab中添加一条定时任务如下，用于每天把运行代码的日志存放到指定目录文件：30 10 * * * cd /raid_disk2/home/liumingkai/hvv/ && /usr/bin/python /raid_disk2/home/liumingkai/hvv/send_hvv_ioc_confidence.py "/raid_disk2/home/liumingkai/hvv/filterip/data/`date +%Y%m%d`.txt" >&gt

2021-07-05 15:54:20 848

原创 MySQL中，创建触发器

在MySQL中，创建触发器语法如下：CREATE TRIGGER trigger_nametrigger_time trigger_event ON tbl_nameFOR EACH ROWtrigger_stmt其中：trigger_name：标识触发器名称，用户自行指定；trigger_time：标识触发时机，取值为 BEFORE 或 AFTER；trigger_event：标识触发事件，取值为 INSERT、UPDATE 或 DELETE；tbl_name：标识建立触发器的表名，即在

2021-03-23 20:20:34 1461

原创对于表actor插入数据,如果数据已经存在，请忽略(不支持使用replace操作)

对于表actor插入如下数据,如果数据已经存在，请忽略(不支持使用replace操作)如果不存在就忽略，需要使用ignore关键字，insert ignore into actor values('1','张三') ；

2021-03-23 19:37:25 241

原创 Hadoop作业调度策略

作业调度策略有三种：1、默认调度算法–FIFO队列策略：hadoop默认调度器，它先按照作业优先级的高低，再按照到达时间的先后来选择被执行的作业。优点：调度算法简单，JobTracker工作负担轻。缺点：忽略了不同作业的需求差异。例如如果类似于对海量数据进行统计分析的作业长期占据计算资源，那么在其后提交的交互型作业有可能迟迟得不到处理，从而影响用户体验。2、计算能力调度算法Capacity Scheduler(Yahoo 开发)(1)Capacity Scheduler 中可以定义多个作业队列，

2021-03-10 15:39:39 798

原创 Hadoop文件读写简易版

NameNode 不需要从磁盘读取 metadata，所有数据都在内存中，硬盘上的只是序列化的结果，只有每次namenode 启动的时候才会读取。文件写入Client 向 NameNode 发起文件写入的请求。NameNode 根据文件大小和文件块配置情况，返回给 Client 它所管理部分 DataNode 的信息。Client 将文件划分为多个 Block，根据 DataNode 的地址信息，按顺序写入到每一个 DataNode 块中。文件读取Client 向 NameNode 发起文件读取

2021-03-10 15:28:26 106 1

原创 Spark的容错机制

一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源。因此，Spark选择记录更新的方式。但是，如果更新粒度太细太多，那么记录更新成本也不低。因此，RDD只支持粗粒度转换，即只记录单个块上执行的单个操作，然后将创建RDD的一系列变换序列（每个RDD都包含了他是如何由其他RDD变换过来的以及如何重建某一块数据的信息。因此RDD的容错

2021-03-10 15:12:22 966

原创分布式集群hbase的搭建

一上传hbase的安装包tar -xvzf hbase-2.2.5 -C /opt/module 二配置hbase-env.sh 文件export HBASE_MANAGES_ZK=falseexport JAVA_HOME=/opt/module/jdk1.8.0_261三配置hbase-site.xml 文件此文件详见另一篇博客：https://blog.csdn.net/lucklydog123/article/details/113103205四配置regionservers文件

2021-01-25 09:55:38 107

原创 hbase分布式集群的hbase-site.xml的配置

<configuration>  <property> <name>hbase.rootdir</name> <value>hdfs://hadoop102:9000/hbase</value> <description>指定Region服务器共享的目录，用来持久存储HBase的数据，URL

2021-01-25 09:41:40 1891

原创 kafka集群简单使用

创建主题topicbin/kafka-topics.sh --create --bootstrap-server hadoop102:9092 --topic test查看主题是否被创建成功bin/kafka-console-producer.sh --broker-list hadoop102:9092 分别创建生产者和消费者在本节点创建一个生产者bin/kafka-console-producer.sh --broker-list hadoop102:9092 --topic test

2021-01-06 20:34:29 109

原创 Linux下kafka集群配置安装

写在最前由于kafka的启动依赖zookeeper，所以在此之前首首先需要安装号zookeeper集群并可以成功启动，一.下载kafka的包先去镜像网站下载kafka对应版本的jar包，apache安装包镜像网站然后上传到Linux中解压，并使用xsnyc命令将其分发到集群的其他节点的机器中 xsync kafka/进入到config目录下，修改kafka的安装配置vim server.properties主要修改broker.id，log.dirs=/opt/module/kafk

2021-01-06 20:07:14 648

原创 zepelin中使用sparksql连接hive出现的问题

关于在zepelin中使用sparksql连接hive，只能查询到default数据库，由于我的spark已经整合好了hive，最后找到其原因，发现是有一个spark集群的节点，没有配好hive，将hive的hive-site.xml文件放到此节点的conf目录下，将jdbc的连接驱动放到此节点的jars目录下，重启zepelin，测试hive连接，发现可以查询到hive数据中的内容。关于spark整合hive可以参考我的上篇博文：https://blog.csdn.net/lucklydog123/a

2020-12-10 09:53:39 313

原创 Spark集群中整合hive（元数据存储在MySQL）

本文的前提是，已经在集群的一个节点配置好了hive，我的hive已经再Hadoop104节点配置完毕，并且可以正常启动和运行。一.将hive-site.xml,复制到spark主节点的conf目录下scp hive-site.xml LMK@hadoop102:/opt/module/spark-2.4.6/conf二.将jdbc的连接驱动放到spark的jars目录下 scp mysql-connector-java-5.1.38.jar LMK@hadoop102:/opt/module/s

2020-12-09 15:35:12 283

原创 Linux中scp,rsync,xsync命令的区别

scp、拷贝完全相同scp -r etc/hadoop/dfs.hosts root@192.168.121.134:/usr/local/hadoop/hadoop-2.7.6/etc/hadoop/rsync、拷贝有差异的文件rsync -rvl etc/hadoop/hdfs-site.xml root@192.168.121.136:/usr/local/hadoop/hadoop-2.7.6/etc/hadoop/xsync、循环复制文件到所有节点相同的目录下!/bin/bas

2020-12-09 15:22:23 914

原创 spark jion ，shuffle经历啦哪些过程

请求读取指定的分片数据split去MapOutputTrackerMaster拉取该shuffleid的分片地址信息通过netty到相关的地址拉取指定Partition的数据去拉取回来的数据执行聚合函数操作去执行后的iterator数据执行 keyorder排序数据，然后最后返回...

2020-12-06 20:00:57 144

转载 spark的三种jion方式

大佬写的文章，spark的三种jion方式，写的挺好的，标个点，下次方便看https://www.cnblogs.com/duodushuduokanbao/p/9911256.html

2020-12-06 19:46:36 118

原创 OLAP和OLTP区别分析

OLAP（On-Line Analytical Processing）联机分析处理，也称为面向交易的处理过程，其基本特征是前台接收的用户数据可以立即传送到计算中心进行处理，并在很短的时间内给出处理结果，是对用户操作快速响应的方式之一。应用在数据仓库，使用对象是决策者。OLAP系统强调的是数据分析，响应速度要求没那么高。OLTP（On-Line Transaction Processing）联机事务处理，它使分析人员能够迅速、一致、交互地从各个方面观察信息，以达到深入理解数据的目的。它具有FASMI(Fas

2020-12-06 17:13:04 294

原创 Zeppelin的配置和安装

Zeppelin 是和Juppter 类似的笔记本工具，支持多种语言,支持spark,scala ,一》在官网下载安装包，我选择的是在清华的镜像网站下载https://mirrors.tuna.tsinghua.edu.cn/apache/zeppelin/将其解压到Linux中，这里我选则的是我的hadoop104节点。二》如果只是用于了解和学习，并不需要复杂配置，只需要配置env文件和site文件即可。首先将conf目录下的zeppelin-site.xml模板复制一份，env文件同理。c

2020-12-05 21:09:21 555

原创 spark集群的配置文件

spark.env.sh#指定yarn的配置文件地址YARN_CONF_DIR=/opt/module/hadoop-2.7.7/etc/hadoop#指定JAVA_HOMEexport JAVA_HOME=/opt/module/jdk1.8.0_261#指定Spark Master 地址export SPARK_MASTER_HOST=hadoop102export SPARK_MASTER_POST=7077#指定spark的运行参数export SPARK_HISTORY_.

2020-12-05 15:50:28 509

原创 if语句里面continue和break的区别

break:结束整个循环体continue:结束本次循环public static void main(String[] args) { int x=0; while(x++ < 10) { if(x == 3) { break; } System.out.println("x="+x); }

2020-12-05 10:02:59 4492

原创 zookeeper的常用shell命令

创建节点create [-s] [-e] path data-s 表示创建一个有序节点-e 表示创建一个临时节点创建了一个持久节点创建一个持久化有序节点create -s /a "aaa"创建临时节点，临时节点会在会话过期之后删除create -e /temp "temp"创建一个临时有序节点create -s -e /temp "temp"修改节点set /hadoop "345"删除节点delete /hadoop若当前节点有子节点，delete命令无法删

2020-11-30 20:14:10 176

原创 zookeeper中共享锁

共享锁共享锁在同一个进程中很容易实现，但是在跨进程或者在不同 Server 之间就不好实现了。Zookeeper 却很容易实现这个功能，实现方式也是需要获得锁的 Server 创建一个 EPHEMERAL_SEQUENTIAL 目录节点，然后调用 getChildren 方法获取当前的目录节点列表中最小的目录节点是不是就是自己创建的目录节点，如果正是自己创建的，那么它就获得了这个锁，如果不是那么它就调用 exists(String path, boolean watch) 方法并监控 Zookeeper

2020-11-30 11:17:46 314

原创面试经典，四数之和

四数之和，与三数之和类似，采用排序加双指针，将前两个元素遍历出来，然后使用双指针选出最后两个元素，途中采去一些剪枝操作减少遍历在确定第一个数之后，如果前四个数大于目标值，如果最后三个和第一个数相加比目标值小，则不可能会等于目标值在确定两个数之后如果前两个数相加，在类比前一次的相加，小于或者大于，都不可能产生目标值的数组public static List<List<Integer>> fourSum(int nums[], int target){ //返回值数组中.

2020-11-28 13:37:41 178

原创 Java中字符串数组转字符串

1.如果是 “字符串数组” 转 “字符串”，只能通过循环，没有其它方法String[] str = {"abc", "bcd", "def"};StringBuffer sb = new StringBuffer();for(int i = 0; i < str.length; i++){ sb. append(str[i]);}String s = sb.toString();2.如果是 “字符数组” 转 “字符串” 可以通过下边的方法char[] data={'a','b',

2020-11-27 18:51:34 661

原创 java中替换字符串中的字符

java中替换字符串中的字符public static void main(String[] args) { String string = "aaabbb"; String newString = string.replace('a', 'o'); System.out.println(newString); }

2020-11-27 17:26:23 4938

原创 HashMap.getOrDefault()的用法

当Map集合中有这个key时，就使用这个key值，如果没有就使用默认值defaultValue HashMap<String, String> map = new HashMap<>(); map.put("name", "cookie"); map.put("age", "18"); map.put("sex", "女"); String name = map.getOrDefault("name", "random"); System.out.println(name

2020-11-27 12:48:16 1310

原创计数排序，桶排序，基数排序代码

一、计数排序1.基本思想计数是一种适合元素均为大于等于零的整数，且最大值与最小值差值不大的排序将数组元素作为数组下标，用一个临时数组统计每个元素出现的个数，再将临时数组从小到大输出，就得到了排序好的数组比如 2，5，8，9，6，6，1这几个数排序，令临时数组长度为 10，当读入2时，count[2]++，所有数据读完后的count数组如下count[0] = 0count[1] = 1count[2] = 1count[3] = 0count[4] = 0count[5] = 1cou

2020-11-26 20:41:02 184

原创 Java中字符数组转换为字符串

java可以使用两种方法直接将字符数组转为字符串方法1：直接在构造String时转换。char[] data = {‘a’, ‘b’, ‘c’};String str = new String(data);方法2：调用String类的方法转换。String.valueOf(char[] ch)java可以使用两种方法直接将字符串转为字符数组情况一：如果是有分隔符的那种例如”abc,def,ghi”;就直接分割就行了.String string = “abc,def,ghi”;Stri.

2020-11-26 20:30:20 7777

原创 Zookeeper功能简介

Zookeeper功能简介ZooKeeper 是一个开源的分布式协调服务，由雅虎创建，是 Google Chubby 的开源实现。分布式应用程序可以基于 ZooKeeper 实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master 选举、分布式锁和分布式队列等功能。Zookeeper基本概念集群角色Leader （领导）Follower （追随者）Observer （观察员）一个 ZooKeeper 集群同一时刻只会有一个 Leader，其他都是 Foll

2020-11-23 19:01:18 240

原创 hive建表语法和参数说明

create [external] table [if not exists] table_name (col_name data_type [comment '字段描述信息']col_name data_type [comment '字段描述信息'])[comment '表的描述信息'][partitioned by (col_name data_type,...)][clustered by (col_name,col_name,...)][sorted by (col_name [asc|

2020-11-21 20:02:19 1514 1

原创 hive创建不同的表（内部，外部，分区，分桶）

Hive本身并不存储数据，而是将数据存储在Hadoop的HDFS中，表名对应HDFS中的目录/文件。根据数据的不同存储方式，将Hive表分为外部表、内部表、分区表和分桶表四种数据模型。每种数据模型各有优缺点。通过create user命令创建user表时，会在HDFS中生成一个user目录/文件。外部表数据不由Hive管理，使用drop命令删除一个表时，只是把表的元数据给删除了，而表的数据不会删除。创建外部表的SQL语句：create external table bigdata17_user(u

2020-11-21 19:55:30 509

3.《离线数据仓库设计与开发》课件 v3.0.docx

空空如也