自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(32)
  • 资源 (1)
  • 收藏
  • 关注

原创 Clickhouse使用遇到的问题

CH遇到的问题,持续更新

2022-06-23 13:57:03 4061 1

原创 clickhouse-copier迁移集群数据

clickhouse-copier迁移集群数据

2022-06-22 14:37:55 733

原创 shell脚本使用expect实现sftp

expect <<- EOFspawn sftp -oPort=${PORT} ${USER}@${IP}expect { "password:" { send "${PASSWORD}\r" }}expect "sftp> "send "mkdir ${DESDIR}/data/hour/${DATE_AGO}\r"expect "sftp> "send "cd ${DESDIR}/data/week/\r"expect "sftp> "send

2022-05-27 18:56:35 1609 1

原创 Green Plume遇到的问题

安装一个过程语言进 PostgreSQL 数据库.ERROR: language "plpgsql" does not existHINT:Use CREATE LANGUAGE to load the language into the database.执行 createlang -d dbname plpgsql

2022-03-07 15:44:19 365

原创 win11右键恢复win10默认更多选项

管理员运行命令:重启就恢复win10右键了reg.exe add "HKCU\Software\Classes\CLSID\{86ca1aa0-34aa-4e8b-a509-50c905bae2a2}\InprocServer32" /f /ve 这个是恢复win11右键reg.exe delete "HKCU\Software\Classes\CLSID\{86ca1aa0-34aa-4e8b-a509-50c905bae2a2}\InprocServer32" /va /f ...

2022-01-16 10:33:02 1089 1

原创 Spark算子

Transformation算子RDD中的所有转换都是延迟加载的,也就是说,它们并不会直接计算结果。相反的,它们只是记住这些应用到基础数据集(例如一个文件)上的转换动作。只有当发生一个要求返回结果给Driver的动作时,这些转换才会真正运行。这种设计让Spark更加有效率地运行。列举部分算子:转换含义map(func)返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成filter(func)返回一个新的RDD,该RDD由经过func函数计算后返回值为t

2022-01-11 09:37:49 174

原创 大数据工具——oozie调度

一、 基础命令#提交任务。-config是指定oozie任务的job.properties文件位置,submit是提交任务,每次提交任务后会把任务放到服务器并生产一个jobId,但是并不会运行这个任务oozie job -oozie http://namenode.com:11000/oozie -config /root/test1/job.properties -submit#执行该任务,0000000-180927111227906-oozie-oozi-W这个是jobId,每个任务的id是唯

2022-01-07 18:30:09 1641

原创 Cloudera Manager拓展SPARK2-2.3.0.cloudera3-1.cdh5.6.0.p0.1-el6.parcel

一、准备工作Centos6.5的系统Cloudera Manager 版本5.6Spark2.3依赖的jdk1.8网上的资料提供的下载地址下载不了,只能基于原有的SPARK2-2.3.0.cloudera2-1.cdh5.13.3.p0.316101-el7.parcel修改从头制作可以参考如下参考地址1二、开始适配1.parcel包制作包名规则:以SPARK2-2.3.0.cloudera3-1.cdh5.6.0.p0.1-el6.parcel为例,第一个-前是包名,最后一个-后是

2021-11-26 15:35:44 1867

原创 kvm虚拟机操作

一、基础操作查看所有虚拟机virsh list --allvirsh list --all | grep 6.5克隆虚拟机并指定文件位置virt-clone -o centos6.5-template -n root-centos6.5-node1-171 -f /data1/kvm/vdisk/root-centos6.5-node1-171启动虚拟机virsh start root-centos6.5-node1-171关闭虚拟机virsh destroy ro

2021-11-25 13:33:34 360

原创 计算机网络(一)

一、OSI七层模型物理层:数据信号与物理信号相互转换。重要设备为中继器(Repeater,也叫放大器)和集线器。数据链路层:将数据组合为数据块(单位为 帧 ),以以太网协议稳定传输数据,寻找主机Mac地址(无规律,寻址太麻烦才有ip)。重要设备为网桥和交换机网络层:端到端传输(路径选择和逻辑寻址)。重要设备为路由器。主要协议:IP协议非常简单,仅仅提供不可靠、无连接的传送服务。主要功能有:无连接数据报传输、数据报路由选择和差错控制其他协议:地址解析协议ARP、逆地址解析协议RARP、因特网报

2021-11-09 15:42:24 227

原创 linux常用指令

1.查看系统核数cat /proc/cpuinfo |grep pro |wc -l2.查看内存free -g3.查看挂载点df -h4.将ISO文件挂载到一个指定目录下 mount -o loop rhel-server-7.0-x86_64-dvd.iso /media5.wc指令-c, --bytes print the byte counts-m, --chars print the character counts-l,

2021-11-09 10:56:56 93

原创 Spark从不同数据库读取数据常见问题

MySQL空值问题在url上加上?characterEncoding=utf-8ADB类型转换在url上加上?stringtype=unspecified

2021-09-07 17:56:14 106

原创 Docker简单操作

Dockerdocker安装的镜像地址配置[root@hadoop01 milvus]# cat /etc/docker/daemon.json{"selinux-enabled": false,"debug": true,"registry-mirrors":[ "https://registry.docker-cn.com", "http://hub-mirror.c.163.com", "https://docker.mirrors.ustc.edu.cn",

2021-08-27 11:36:00 316

原创 大数据工具——ClickHouse

一、基础概念1、什么是ClickHouseClickHouse是俄罗斯的Yandex于2016年开源的一个用于联机分析(OLAP:Online Analytical Processing)的列式数据库管理系统(DBMS:Database Management System),简称CH , 主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。ClickHouse是一个完全的列式数据库管理系统,允许在运行时创建表和数据库,加载数据和运行查询,而无需重新配置和重新启动服务器,支持线

2021-07-05 19:45:48 719 1

原创 Hadoop常用端口web界面

1、HDFS页面:500702、YARN的管理界面:80883、Zookeeper的服务端口号:21814、Kafka的服务端口号:90925、azkaban界面:84436、Hbase界面:16010,600107、Spark的界面:80808、Supervisor: 9001

2021-07-01 08:27:29 1705

原创 spark链接hive错误

错误代码Exception in thread "main" org.apache.spark.sql.streaming.StreamingQueryException: Cannot create hive connection jdbc:hive2://master:10000/=== Streaming Query ===Identifier: [id = 66ecc70a-bbdf-45f1-8362-b0c2e0d2bbf6, runId = d6878eb7-70c0-4d89-ab26

2021-06-30 22:28:32 451 1

原创 Scala语言——(二)

官方文档 https://docs.scala-lang.org/overviews/collections/overview.html一、集合1.可变集合和不可变集合不可变集合可以安全的并发访问。可变集合可以在适当的地方被更新或扩展。这意味着你可以修改,添加,移除一个集合的元素。# 不可变集合 scala.collection.immutable (Scala默认采用不可变集合)# 可变集合 scala.collection.mutable 不可变集合可变集合2.数组Ar.

2021-06-06 13:52:15 205

原创 Scala语言(一)

一、

2021-06-04 20:40:27 439

原创 MySQL 5.7账号锁定Account Lock

MySQL 5.7账号锁定Account Lockmysql>ALTER USER 'demo'@'localhost' ACCOUNT UNLOCK;Query OK, 0 rows affected (0.00 sec)

2021-05-22 15:14:25 784

原创 大数据工具——Kylin

官网:http://kylin.apache.org/cn/官方文档http://kylin.apache.org/cn/docs/下载地址http://kylin.apache.org/cn/download/一、Kylin简介1.Kylin概念Kylin是一个分布式的数据仓库平台,可以将Hive中的数据同步到Kylin中进行数据分析,也可也实现多维立方体的查询,将最终结果保存到Hbase中。Kylin的出现就是为了解决大数据系统中TB级别数据的数据分析需求,它提供Hadoop/Sp.

2021-05-16 15:44:45 744 3

原创 大数据工具——Sqoop

一、Sqoop简介官方文档:http://sqoop.apache.org/docs/1.4.7/SqoopUserGuide.html参考命令文档:http://www.360doc.com/content/16/1116/10/37253246_606951065.shtml1.产生背景早期由于技术的匮乏,要首先非结构和和结构化同步,是非常困难的,Hadoop生态研发了sqoop这样的一个同步工具,主要是实现异构化数据同步,不过sqoop更新较慢,因为sqoop工具比较小,最新版本是1.4.7

2021-05-15 09:33:31 1174

原创 大数据工具——DataX

官网:https://github.com/alibaba/DataX一、DataX概述日志数据:用户每天浏览的数据信息,一般都是用log进行保存,使用Flume进行采集业务数据:用户比较关键的信息,也就是重要的信息,例如,用户购买的商品,支付的金钱,用户注册的各种信息,这样的数据都会保存到业务数据库(MySQL)DataX就是可以将业务数据库的数据同步到数据仓库中(Hive)二、框架设计DataX完成单个数据同步的作业,我们称之为Job,DataX接受到一个Job之后,将启动一个进程来完成

2021-05-14 21:36:52 1075 1

原创 大数据工具——Flume

一、Flume概念1.Flume介绍1、是一个分布式、可靠的、高可用的日志数据采集框架2、具有数据流的体系结构3、具有可调整的可靠性和容错性4、是Hadoop生态中的一个组件2.Flume设计1、Flume的最小运行单元是Agent,三大组件:Source,channel,Sink2、Flume在运行Agent时候,会占用JVM3、Flume组件Source:作用是与数据源进行交互,采集数据,封装成Event,传给ChannelEvent:采集的数据,对数据封装的对象,Event的

2021-05-10 22:28:19 252

原创 大数据工具—HBASE数据库(二)

一、Hbase的读写流程1.组件说明https://blog.csdn.net/m0_45993982/article/details/1164240862.写数据流程Client通过Zookeeper的调度,向RegionServer发出写数据请求,在Region中写数据。数据被写入Region的MemStore,知道MemStore达到预设阀值。MemStore的数据被Flush成一个StoreFile。随着StoreFile文件不断增多,当数量增长到一定阀值后,出发Compact合并

2021-05-06 21:51:21 248

原创 Windows修改映射文件

进入windows目录下C:\Windows\System32\drivers\etc直接修改目录文件通常不成功将hosts复制到桌面在最后添加192.168.1.100 hdp01192.168.1.101 hdp02192.168.1.102 hdp03保存后拉倒目录下替换

2021-05-06 20:21:38 370

原创 大数据工具——HBASE数据库(一)

一、HBASE基础概念1.HBASE概念HBASE是一个数据库----可以提供数据的实时随机读写。HBASE与mysql、oralce、db2、sqlserver等关系型数据库不同,它是一个NoSQL数据库(非关系型数据库)2.HBase特性- HBase的表模型与关系型数据库的表模型不同: - HBase的表没有固定的字段定义;- HBase的表中每行存储的都是一些key-value对 - HBase的表中有列簇的划分,用户可以指定将哪些kv插入哪个列族 - HBase的表在物理存储上,是

2021-05-05 18:49:27 470 2

原创 Hive 删除库、表失败

FAILED: IllegalStateException Unexpected Exception thrown: Unable to fetch table myuser1. You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ‘OPTION SQL_SELECT_LIMIT=DEFAULT

2021-05-04 11:41:38 319

原创 大数据工具——Hive(高级)

一、查询基本语法1.查询基本结构写顺序select fromjoin on group by havingorder bysort bylimitunion / union all执行顺序fromonjoinwheregroup by havingselectdistinctorder bylimit查询注意事项尽量不要使用子查询、尽量不要使用 in not in select * from aa1 where id in (select id fro

2021-05-03 15:24:43 264

原创 大数据工具——Hive(基础)

一、HIVE的定义Hive是一个基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射成一张数据表,并可以使用类似SQL的方式来对数据文件进行读写以及管理。这套Hive SQL 简称HQL。Hive的执行引擎可以是MR、Spark、Tez。本质Hive的本质是将HQL转换成MapReduce任务,完成整个数据的分析查询,减少编写MapReduce的复杂度 。二、Hive的优缺点优点1.学习成本低:提供了类SQL查询语言HQL,使得熟悉SQL语言的开发人员无需关心细节,可以快速上手.2.

2021-04-29 16:20:44 692 3

原创 Notepad++插件远程链接虚拟机

Notepad++插件远程链接虚拟机1.选择插件中的插件管理2.搜索安装,安装会退出,没问题3.插件中心中选择nppftp4.小框中选择设置5.设置6.很多情况下都会只有根目录,刷新一下就好

2021-04-26 21:53:54 175

原创 大数据相关——YARN资源管理器

大数据相关——YARN资源管理器先学习一下YARN资源管理器,有利于学习MapReduce框架1.YARN简介​ 为克服Hadoop 1.0中HDFS和MapReduce存在的各种问题⽽提出的,针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜,提出了全新的资源管理框架YARN.​ Apache YARN(Yet another Resource Negotiator的缩写)是Hadoop集群的资源管理系统,负责为计算程序提供服务器计算资源,相当于⼀个分布式

2021-04-23 21:27:26 258

原创 大数据相关框架(一)Zookeeper

大数据相关框架(一)ZookeeperZookeeper安装参考:https://www.cnblogs.com/jimcsharp/p/8358271.html一、Zookeeper概述(一)定义及作用1.Zookeper是一个为分布式应用提供的一个分布式开源协调服务框架,是Google的Chubby的一个开源实现,是Hadoop和Hbase的重要组件。2.主要用于解决分布式集群中应用系统的一致性问题。3.可⽤于维护和监控存储的数据的状态,通过监控存储的数据状态的变化,从⽽达到基于数据的集群管

2021-04-22 22:04:43 258

大数据开发工程师实习报告.doc

大数据开发工程师实习报告

2021-04-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除