sheep8521-CSDN博客

原创能力提升--通用能力

流程工具类-办公技能提升之PPT流程工具类-办公技能提升之Excel流程工具类-办公技能提升之思维导图流程工具类-公文撰写思路和撰写规范流程工具类-案例萃取技巧。沟通表达类-工作汇报技巧或结构化表达沟通表达类-提问和访谈技巧。高效思维类-数据思维与数据分析。自我驱动类-压力与情绪管理。自我驱动类-职场生涯规划。流程工具类-工作流程管理。沟通表达类-职场沟通技巧。沟通表达类-商务谈判技巧。自我驱动类-职场心理学。高效思维类-结构化思维。沟通表达类-跨部门沟通。自我驱动类-商务礼仪。高效思维类-创新思维。

2025-01-23 15:35:39 388

原创 ClickHouse表引擎概述

Ø 数据的存储方式 Ø 数据的存储位置Ø 是否可以使用索引 Ø 是否可以使用分区Ø 是否支持数据副本 Ø 并发数据访问ClickHouse在建表时必须指定表引擎。表引擎主要分为四大类：MergeTree系列、Log系列、与其他存储/处理系统集成引擎、特定功能的引擎，每类引擎包含了多个具体的引擎，每种引擎均有其使用的场景。1、MergeTree系列引擎（MergeTree表引擎介绍适用于高负载任务的最通用和功能最强大的表引擎。可以快速插入数据并进行后续的后台数据处理。

2024-07-09 14:56:34 477

原创 Hbase实战处理（一）关于hbase的表设计和集成

hbase集群的HA配置（假如有3台机器（同时是regionserver角色），master、slaver1、slaver2）stop-hbase.sh cd /home/hadoop-twq/bigdata/hbase-1.2.6/conf vi backup-masters 在master机器上文件增加如下的记录：slave1 ---backup master的节点ip---把backup的信息同步给其余的slave。jps验证访问: http://slave1:16010。

2024-06-03 14:07:35 1542

原创 doris实战处理（一）doris表的建表规范、查询

b、没有办法分区的，数据又较快增长的，没办法按照时间动态分区，可以适当放大一下你的bucket数量，按照你的数据保存周期（180天）数据总量，来估算你的bucket数量应该是多少，建议还是单个bucket大小在1-3G。【强烈建议】不要使用Auto Bucket ，按照自己的数据量来进行分区分桶，这样你的导入及查询性能都会得到很好的效果，Auto Bucket 会造成 tablet 数量过多，造成大量小文件的问题。a、没有办法分区的，数据又缓慢增长的：单个tablet数据量保持在1-3G；

2024-05-31 15:08:26 2082

原创 Clickhouse实战处理（一）集成引擎和Distributed引擎之集成Hive

SELECT查询对于读取消息并不是很有用（除了调试），因为每个消息只能读取一次。通常，将该引擎结合物化视图一起使用，使用方法：（1）、使用Kafka引擎创建一个Kafka的消费者，并将其视为一个数据流。（2）、创建所需结构的表。（3）、创建一个物化视图，该视图转换来自引擎的数据并将其放入上一步创建的表中。当物化视图添加至该引擎，它将会在后台收集数据。这就允许你从Kafka持续接收消息并使用SELECT将数据转换为所需的格式。

2024-05-21 15:42:23 1344

原创 ClickHouse实战处理（一）：MergeTree系列引擎

6、partition.dat与minmax_[Column].idx：如果指定了分区键，则会额外生成partition.dat与minmax索引文件，它们均使用二进制格式存储。data.bin：数据文件，使用压缩格式存储，默认为LZ4压缩格式，用于存储某一列的数据。MergeTree在写入一批数据时，数据总会以数据片段的形式写入磁盘，且数据片段在磁盘上不可修改。这里我们介绍下MergeTree引擎表对应到磁盘的数据目录，Clikchouse新版本与之前版本对比，数据对应的磁盘目录略有不同。

2024-05-21 14:52:28 1982

原创 Hive实战处理（二十三）hive整合phoenix

业务表使用hbase存储,使用hive整合phoenix，使用sql语法进行数据查询。

2024-01-04 15:49:19 1414

原创 HIVE实战处理（二十二）股票连续上涨最长的天数

sum和leg函数可以完美解决连续型数据问题

2022-09-15 14:46:34 1417

原创 Idea 导入多个maven项目,通过父工程引入子工程

刚刚开始使用IDEA很多不习惯，导入第二个maven项目时之前的项目就没了，下面介绍下导入多个maven项目展示在左侧栏Maven Projects，提醒：使用工具的时候一定看清楚提示再操作，就会少走好多弯路。1、选择file-new-Module from Existing Sources…2、选中项目的根目录，点击OK 3、默认选择Ceate module from existing sources,但是我们要选择Import module from external model,然

2022-05-12 15:34:10 4812

原创 oracle创建分区表以及索引

一、分区表、索引的分类1、分区表原理：对于10gR2而言，ORACLE对于分区表方式其实就是将表分段存储，一般普通表格是一个段存储，而分区表会分成多个段，所以查找数据过程都是先定位根据查询条件定位分区范围，即数据在那个分区或那几个内部，然后在分区内部去查找数据，一个分区一般保证四十多万条数据就比较正常了，2、分区表的分类：• 　　 Range(范围)分区range分区方式，也算是最常用的分区方式，其通过某字段或几个字段的组合的值，从小到大，按照指定的范围说明进行分区，我们在INSER

2022-04-15 18:06:07 9448

原创数据指标体系的构建思路

前言指标一般分为：结果性指标和过程性指标1）结果性指标，比如电商场景下的 GMV 或订单量，它通常是业务漏斗的底部，是一个不可更改的、后验性的指标。2）过程性指标，可以简单理解为我到达这个结果之前经过的路径，以及通过这个路径去衡量转化好坏的过程，它是可干预的，而且通常是“用户行为”。在实际的业务运营过程中，不仅要关注结果性指标，更要关注过程性指标，通过优化过程性指标便能够更加有效的达成结果性指标。在了解了指标的类型之后我们就可以着手开始搭建我们的指标体系了，首先需要找到什么是我们关注的核心指标？

2021-06-28 17:14:16 2072

原创 canal实操（一）监控mysql的数据打印到控制台

前言：本实操参考：超详细的Canal入门，看这篇就够了！一、简易版本的canal控制台输出增量的日志1、准备一个mysql表，mysql压缩包解压的安装教程2、插入一条数据3、对应canal启动的客户端会把插入的log日志信息打印出来。以上需要本地开启canal 启动命令startup.batmysql服务启动准备好更新/插入的数据INSERT INTO runoob_tbl VALUES('2','肉包','小米','20210503');一旦上面1，2启动，mysq

2021-05-27 11:24:37 1600 1

原创 mysql实战环境（二）压缩包直接解压后启动mysql

1、压缩包下载地址：http://mirrors.163.com/mysql/Downloads/MySQL-8.0/mysql-8.0.24-winx64.zip当然也可在官网进行免费下载2、直接解压压缩包到指定目录3、原始压缩包应该是没有data目录、ini文件的，启动mysql前都需要创建。1）windows环境下的ini的配置信息如下：注意：1)需要修改的地方basedir和datadir2)skip-grant-tables 这个配置项很重要，作用是跳过登录的验证,因为刚安装你不

2021-05-27 09:52:43 854

原创 mysql实战环境（一）win的5.5.5升级到5.7.20

一、mysql更新升级前的准备工作1、windows下查看mysql的安装路径登录MySQL的客户端，然后输入命令：show variables like “%char%”;直接看最后一行２＼二、mysql升级Windows下将MySQL5.5升级为MySQL5.7第一步：停止原来的MySQL服务，打开任务管理器，找到mysqld的进程名，停止掉。第二步：备份原来数据库的文件，在C:\ProgramData\MySQL 相应的版本目录下面，有data目录，将此目录复制到其他地方备份。第三

2021-05-24 18:30:56 412 1

原创 Hive学习之路（二十三）Hive 常用的内置函数(补充) posexplode

一、时间区间拆分成单独行1、天级别：根据指定日期（到天）和结束日期，列出这段时间内的所有明细时间select tf.*,t.*, date_add(start_date,pos) from ( select 'a' as a, '2018-11-01' as start_date, '2018-12-01' as end_date ) t lateral view posexplode(split(space(datediff(end_date,start_date)),' ')) tf as

2021-05-20 10:21:26 921 1

原创 Hive实战（三）特定分割符\u0003

create table temp.tmp_test_serp(id string,name string,password string)row format delimited fields terminated by '\003'使用java编写一个特定分割符\u0003的txt文件。 int splitChar = 3; String splitString1 = String.valueOf((char)splitChar); System.out

2021-05-17 13:35:13 4977 1

原创 Java实战（二）读取mysql数据并以特定分隔符写入到本地文件

一、创建一个maven项目Demp,构建结构如下图所示：1、读取mysql数据库的数据，封装为User对象。重新toString()方法，用特定分隔符进行组装。package example.dao;import java.util.ArrayList;import java.util.List;public class User { private String id; private String name; private String password;

2021-05-14 15:39:14 1147 2

原创 spark基础知识（一）spark submit的提交参数

1、因为生产环境的环境依赖不够，需要单独引用参数设置./spark-submit --master spark://ip:7077 #如果时本地模式，用local[n] ,n>1--class com.ec.SparkConsumer \--jars $(echo /home/rowen/libs/*.jar | tr ' ' ',') \ #批量引用环境需要的jar包--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2

2021-05-11 18:48:27 264

原创大数据开发选择之技术路线 or 业务路线？

问题一、大数据开发在公司是不是每天写sql，会转别的吗？问题的本身是在思考技术人的职业发展和自身能力提升的瓶颈。如果是做大数据平台开发，那更多是偏向后端，所以是必须要写代码的，不限于java\scala等语言。如果是数仓开发，那么会偏向业务，会涉及维度建模，ETL，报表开发等等。数仓开发又分传统的离线数仓和实时数仓。1）离线数仓的话写Hive SQL或者Spark SQL比较多，但也不是单纯的写写SQL而已，有时候会开发一些自定义函数，或者与第三方存储进行集成时，都是要写代码的。2) 实时

2021-05-11 18:03:43 736

原创 JAVA基础（三）设计模式之单例模式以及线程安全问题

一、线程安全1、什么是线程安全？如果你的代码所在的进程中有多个线程在同时运行，而这些线程可能会同时运行这段代码。如果每次运行结果和单线程运行的结果是一样的，而且其他的变量的值也和预期的是一样的，就是线程安全的。或者说：一个类或者程序所提供的接口对于线程来说是原子操作，或者多个线程之间的切换不会导致该接口的执行结果存在二义性,也就是说我们不用考虑同步的问题，那就是线程安全的。2、单例模式下的线程安全实战//创建单例类public class TestSingleton { String name

2021-05-11 17:21:08 420

原创 JAVA理论（二）JAVA多线程实现同步+多线程并发同步解决方案

一、线程安全问题1、为什么有线程安全问题？当多个线程同时共享同一个全局变量或静态变量，做写的操作（修改变量值）时，可能会发生数据冲突问题，也就是线程安全问题。但是做读操作时不会发生数据冲突问题。2、案例：需求现在有100张火车票，有两个窗口同时抢火车票，请使用多线程模拟抢票效果。1）改良前代码/** * 需求现在有100张火车票，有两个窗口同时抢火车票，请使用多线程模拟抢票效果。 * Created by yz on 2018/04/01. */public class ThreadDe

2021-05-07 17:05:47 687 1

原创 maven实战（三）maven构建scala的项目以及maven环境bug修复

1、选择maven可选的模版创建scala项目2、配置gva坐标，选择对应的maven依赖、setting文件。3、直接点击下一步，选择对应项目的路径地址。4、中间因为maven环境问题，导致项目创建失败，src文件夹也创建失败。5、后面发现是setting文件中的镜像问题，镜像越多反而会让项目加载失败。后面更新了mirror，只填写了阿里云的镜像源，其余的都删除了。<mirror> <id>alimaven</id> <n

2021-04-14 17:03:28 381

原创 linux桥接模式下导入VMX文件之后的相关设置和xshell连接

1、获得本地路由ip地址(本地也是在wifi情况下连接，只不过是使用ipv4)注意：ipv6的有坑，我们另说。 1、修改网卡eth0设置ONBOOT=“yes”IPADDR=192.168.43.111 #在0-255之间随便设置一个ip作为虚拟机ip地址。GATEWAY=192.168.43.1 #设置为和本地路由地址一样的ip,查看看本地路由地址的见上面。DNS2=192.168.43.1[hadoop@hadoop000 network-scripts]$ pwd/etc/sysco

2021-04-13 18:43:39 280

原创 sparkstreaming实战（一）sparkstraming的Output Operations之foreachrdd实例

sparkstreaming 导出到外部数据库，foreachrdd的应用：https://blog.csdn.net/legotime/article/details/51836039

2021-04-13 14:41:17 166

原创 shell实战（二) 提取文件全路径的不后缀的文件名

[root@localhost log]# var=/dir1/dir2/file.txt[root@localhost log]# echo ${var##*/}file.txt2、提取后缀[root@localhost log]# echo ${var##*.}txt3、提取不带后缀的文件名，分两步[root@localhost log]# tmp=${var##*/}[root@localhost log]# echo $tmpfile.txt[root@localhost log

2021-04-12 12:00:17 3707 1

原创 shell实战（一）循环获得父目录下的子目录

#!bin/sh#获得目录下面的子目录名称，并保存在数组中LOCAL_PATH=$1 #/home/hadoop/test/cd $LOCAL_PATHfunction test(){#创建目录的listchannelArr=("") i=0 for line in `ls $LOCAL_PATH` #此处也适合hdfs目录 hdfs dfs -ls $HDFS_PATH do #echo $line channelArr[i]=${line} echo "$c

2021-04-12 11:25:27 845

原创 Nginx反向代理的两种配置方式

一、nginx反向代理简单配置1、准备nginx环境这篇文章的前提是已经配置好了NGINX，而且tomcat已经配置好了，而且能能够访问了。反向代理不同端口(本案例均是单节点)这里介绍一台nginx服务器（192.168.83.130）,代理两个本机的tomcat（端口分别为：192.168.83.130:8080、192.168.83.130:8081），下面是安装后情况：1)nginx目录:2)tomcat实例：首先在两个tomcat的/conf/server.xml里面分别配置端口如

2021-04-09 15:41:37 11236 1

原创负载均衡篇（二）实现Web负载均衡的几种方式

负载均衡(Load Balance)是集群技术（Cluster）的一种应用。负载均衡可以将工作任务分摊到多个处理单元，从而提高并发处理能力。目前最常见的负载均衡应用是Web负载均衡。根据实现的原理不同，常见的web负载均衡技术包括：DNS轮询、IP负载均衡和CDN。其中IP负载均衡可以使用硬件设备或软件方式来实现。一、什么是web负载均衡服务器集群(Cluster)使得多个服务器节点能够协同工作，根据目的的不同，服务器集群可以分为：高性能集群：将单个重负载的请求分散到多个节点进行处理，最后再将处理结

2021-04-09 11:46:26 705

hbase安装和基本介绍

空空如也