NoMissU-CSDN博客

原创 clickhouse-copier迁移集群数据

clickhouse-copier迁移集群数据

2022-06-22 14:37:55 733

expect <<- EOFspawn sftp -oPort=${PORT} ${USER}@${IP}expect { "password:" { send "${PASSWORD}\r" }}expect "sftp> "send "mkdir ${DESDIR}/data/hour/${DATE_AGO}\r"expect "sftp> "send "cd ${DESDIR}/data/week/\r"expect "sftp> "send

2022-05-27 18:56:35 1609 1

原创 Green Plume遇到的问题

安装一个过程语言进 PostgreSQL 数据库.ERROR: language "plpgsql" does not existHINT:Use CREATE LANGUAGE to load the language into the database.执行 createlang -d dbname plpgsql

2022-03-07 15:44:19 365

原创 win11右键恢复win10默认更多选项

管理员运行命令：重启就恢复win10右键了reg.exe add "HKCU\Software\Classes\CLSID\{86ca1aa0-34aa-4e8b-a509-50c905bae2a2}\InprocServer32" /f /ve 这个是恢复win11右键reg.exe delete "HKCU\Software\Classes\CLSID\{86ca1aa0-34aa-4e8b-a509-50c905bae2a2}\InprocServer32" /va /f ...

2022-01-16 10:33:02 1089 1

原创 Spark算子

Transformation算子RDD中的所有转换都是延迟加载的，也就是说，它们并不会直接计算结果。相反的，它们只是记住这些应用到基础数据集（例如一个文件）上的转换动作。只有当发生一个要求返回结果给Driver的动作时，这些转换才会真正运行。这种设计让Spark更加有效率地运行。列举部分算子：转换含义map(func)返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成filter(func)返回一个新的RDD，该RDD由经过func函数计算后返回值为t

2022-01-11 09:37:49 174

原创大数据工具——oozie调度

一、基础命令#提交任务。-config是指定oozie任务的job.properties文件位置,submit是提交任务，每次提交任务后会把任务放到服务器并生产一个jobId,但是并不会运行这个任务oozie job -oozie http://namenode.com:11000/oozie -config /root/test1/job.properties -submit#执行该任务，0000000-180927111227906-oozie-oozi-W这个是jobId，每个任务的id是唯

2022-01-07 18:30:09 1641

原创 Cloudera Manager拓展SPARK2-2.3.0.cloudera3-1.cdh5.6.0.p0.1-el6.parcel

一、准备工作Centos6.5的系统Cloudera Manager 版本5.6Spark2.3依赖的jdk1.8网上的资料提供的下载地址下载不了，只能基于原有的SPARK2-2.3.0.cloudera2-1.cdh5.13.3.p0.316101-el7.parcel修改从头制作可以参考如下参考地址1二、开始适配1.parcel包制作包名规则：以SPARK2-2.3.0.cloudera3-1.cdh5.6.0.p0.1-el6.parcel为例，第一个-前是包名，最后一个-后是

2021-11-26 15:35:44 1867

原创 kvm虚拟机操作

一、基础操作查看所有虚拟机virsh list --allvirsh list --all | grep 6.5克隆虚拟机并指定文件位置virt-clone -o centos6.5-template -n root-centos6.5-node1-171 -f /data1/kvm/vdisk/root-centos6.5-node1-171启动虚拟机virsh start root-centos6.5-node1-171关闭虚拟机virsh destroy ro

2021-11-25 13:33:34 360

原创计算机网络（一）

一、OSI七层模型物理层：数据信号与物理信号相互转换。重要设备为中继器（Repeater，也叫放大器）和集线器。数据链路层：将数据组合为数据块（单位为帧），以以太网协议稳定传输数据，寻找主机Mac地址（无规律，寻址太麻烦才有ip）。重要设备为网桥和交换机网络层：端到端传输（路径选择和逻辑寻址）。重要设备为路由器。主要协议：IP协议非常简单，仅仅提供不可靠、无连接的传送服务。主要功能有：无连接数据报传输、数据报路由选择和差错控制其他协议：地址解析协议ARP、逆地址解析协议RARP、因特网报

2021-11-09 15:42:24 227

原创 linux常用指令

1.查看系统核数cat /proc/cpuinfo |grep pro |wc -l2.查看内存free -g3.查看挂载点df -h4.将ISO文件挂载到一个指定目录下 mount -o loop rhel-server-7.0-x86_64-dvd.iso /media5.wc指令-c, --bytes print the byte counts-m, --chars print the character counts-l,

2021-11-09 10:56:56 93

原创 Spark从不同数据库读取数据常见问题

MySQL空值问题在url上加上?characterEncoding=utf-8ADB类型转换在url上加上?stringtype=unspecified

2021-09-07 17:56:14 106

原创 Docker简单操作

Dockerdocker安装的镜像地址配置[root@hadoop01 milvus]# cat /etc/docker/daemon.json{"selinux-enabled": false,"debug": true,"registry-mirrors":[ "https://registry.docker-cn.com", "http://hub-mirror.c.163.com", "https://docker.mirrors.ustc.edu.cn",

2021-08-27 11:36:00 316

原创大数据工具——ClickHouse

一、基础概念1、什么是ClickHouseClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Management System)，简称CH , 主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。ClickHouse是一个完全的列式数据库管理系统，允许在运行时创建表和数据库，加载数据和运行查询，而无需重新配置和重新启动服务器，支持线

2021-07-05 19:45:48 719 1

原创 Hadoop常用端口web界面

1、HDFS页面：500702、YARN的管理界面：80883、Zookeeper的服务端口号：21814、Kafka的服务端口号：90925、azkaban界面：84436、Hbase界面：16010,600107、Spark的界面：80808、Supervisor: 9001

2021-07-01 08:27:29 1705

原创 spark链接hive错误

错误代码Exception in thread "main" org.apache.spark.sql.streaming.StreamingQueryException: Cannot create hive connection jdbc:hive2://master:10000/=== Streaming Query ===Identifier: [id = 66ecc70a-bbdf-45f1-8362-b0c2e0d2bbf6, runId = d6878eb7-70c0-4d89-ab26

2021-06-30 22:28:32 451 1

原创 Scala语言——（二）

官方文档 https://docs.scala-lang.org/overviews/collections/overview.html一、集合1.可变集合和不可变集合不可变集合可以安全的并发访问。可变集合可以在适当的地方被更新或扩展。这意味着你可以修改，添加，移除一个集合的元素。# 不可变集合 scala.collection.immutable (Scala默认采用不可变集合)# 可变集合 scala.collection.mutable 不可变集合可变集合2.数组Ar.

2021-06-06 13:52:15 205

原创 Scala语言（一）

一、

2021-06-04 20:40:27 439

原创 MySQL 5.7账号锁定Account Lock

MySQL 5.7账号锁定Account Lockmysql>ALTER USER 'demo'@'localhost' ACCOUNT UNLOCK;Query OK, 0 rows affected (0.00 sec)

2021-05-22 15:14:25 784

原创大数据工具——Kylin

官网：http://kylin.apache.org/cn/官方文档http://kylin.apache.org/cn/docs/下载地址http://kylin.apache.org/cn/download/一、Kylin简介1.Kylin概念Kylin是一个分布式的数据仓库平台，可以将Hive中的数据同步到Kylin中进行数据分析，也可也实现多维立方体的查询，将最终结果保存到Hbase中。Kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求，它提供Hadoop/Sp.

2021-05-16 15:44:45 744 3

原创大数据工具——Sqoop

一、Sqoop简介官方文档：http://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html参考命令文档：http://www.360doc.com/content/16/1116/10/37253246_606951065.shtml1.产生背景早期由于技术的匮乏，要首先非结构和和结构化同步，是非常困难的，Hadoop生态研发了sqoop这样的一个同步工具，主要是实现异构化数据同步，不过sqoop更新较慢，因为sqoop工具比较小，最新版本是1.4.7

2021-05-15 09:33:31 1174

原创大数据工具——DataX

官网：https://github.com/alibaba/DataX一、DataX概述日志数据：用户每天浏览的数据信息，一般都是用log进行保存，使用Flume进行采集业务数据：用户比较关键的信息，也就是重要的信息，例如，用户购买的商品，支付的金钱，用户注册的各种信息，这样的数据都会保存到业务数据库（MySQL）DataX就是可以将业务数据库的数据同步到数据仓库中（Hive）二、框架设计DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成

2021-05-14 21:36:52 1075 1

原创大数据工具——Flume

一、Flume概念1.Flume介绍1、是一个分布式、可靠的、高可用的日志数据采集框架2、具有数据流的体系结构3、具有可调整的可靠性和容错性4、是Hadoop生态中的一个组件2.Flume设计1、Flume的最小运行单元是Agent，三大组件：Source，channel，Sink2、Flume在运行Agent时候，会占用JVM3、Flume组件Source：作用是与数据源进行交互，采集数据，封装成Event，传给ChannelEvent：采集的数据，对数据封装的对象，Event的

2021-05-10 22:28:19 252

原创大数据工具—HBASE数据库（二）

一、Hbase的读写流程1.组件说明https://blog.csdn.net/m0_45993982/article/details/1164240862.写数据流程Client通过Zookeeper的调度，向RegionServer发出写数据请求，在Region中写数据。数据被写入Region的MemStore，知道MemStore达到预设阀值。MemStore的数据被Flush成一个StoreFile。随着StoreFile文件不断增多，当数量增长到一定阀值后，出发Compact合并

2021-05-06 21:51:21 248

原创 Windows修改映射文件

进入windows目录下C:\Windows\System32\drivers\etc直接修改目录文件通常不成功将hosts复制到桌面在最后添加192.168.1.100 hdp01192.168.1.101 hdp02192.168.1.102 hdp03保存后拉倒目录下替换

2021-05-06 20:21:38 370

原创大数据工具——HBASE数据库（一）

一、HBASE基础概念1.HBASE概念HBASE是一个数据库----可以提供数据的实时随机读写。HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同，它是一个NoSQL数据库（非关系型数据库）2.HBase特性- HBase的表模型与关系型数据库的表模型不同： - HBase的表没有固定的字段定义；- HBase的表中每行存储的都是一些key-value对 - HBase的表中有列簇的划分，用户可以指定将哪些kv插入哪个列族 - HBase的表在物理存储上，是

2021-05-05 18:49:27 470 2

原创 Hive 删除库、表失败

FAILED: IllegalStateException Unexpected Exception thrown: Unable to fetch table myuser1. You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ‘OPTION SQL_SELECT_LIMIT=DEFAULT

2021-05-04 11:41:38 319

m0_45993982的博客

原创 Clickhouse使用遇到的问题