ykqidev-CSDN博客

原创 windows下mysql的下载、安装与配置（迭代中...）

1）my.ini文件，个人自定义设置大概如下[mysql]# 设置mysql客户端默认字符集[mysqld]# 设置3306端口# 设置mysql的安装目录# 设置 mysql数据库的数据的存放目录，MySQL 8+ 不需要以下配置，系统自己生成即可，否则有可能报错# 允许最大连接数# 服务端使用的字符集默认utf8mb4# 创建新表时将使用的默认存储引擎#binlog日志名称前缀#默认值未0，如果使用默认值则不能和从节点通信，这个值的区间是：1到(2^32)-1。

2023-01-09 16:17:02 553 1

转载 Shell命令批量杀死进程

在Linux操作系统中，一般常用的杀死进程的命令是kill、pkill、killall，根据杀死单个进程拓展至批量杀死进程。结果如下图2）根据进程号（PID）杀死进程：第二列显示的就是进程号kill命令杀死指定进程PID的进程kill PID3）强制杀死进程。（有些进程可能杀不死，就加个-9参数，强制将其杀死）4）杀死多个进程，在命令 kill -9 后面跟多个进程的PID号即可。（进程号之间以空格隔开）

2023-01-05 11:48:32 3689

原创 kettle的下载安装以及问题点

6）把工程达成jar包，名称参考安装版 plugins/pentaho-big-data-plugin/下的pentaho-big-data-plugin-版本号.jar的名字，然后替换安装版这个jar包为工程导出的jar包，重启kettle，DB连接的HadoopHive2连接的特征列表的supportsBatchUpdate已经是Y了，实际转换中的表输出速度也提高到几千条每秒。异常原因：在kettle的big-data-plugin插件的源码中把批量提交的方法关闭了，所以其只能单挑插入，效率就非常低。

2023-01-04 18:09:53 10025

原创 Hive框架里面的一些组件（迭代中...）

1）将现有的所有hive的服务停止，不需要修改任何服务，在某一台机器上执行hiveserver2或者hive --service hiveserver2的命令，开始启动hiveserver2的服务，hiveserver2的服务也是一个阻塞式窗口，当开启服务后，会开启一个10000的端口，对外提供服务。HiveServer2(HS2)是一种能使客户端执行Hive查询的服务。Hive客户端工具后续将使用Beeline 替代HiveCLI ，Beeline是Hive新的命令行客户端工具。

2022-12-20 17:29:50 486

原创 Notepad++ 配置设置（迭代中）

具体步骤：Setting → Style Configurator → language : Global Styles；Style : Global override → 打钩上 (Enable global background colour) → Colour Style 里点击 Background colour → 点击MoreColos在背景色设置界面，设置成（色调：80 饱和度：97 亮度：205）（红R：202 绿G：234 蓝B：206），添加到自定义颜色，确定，然后将设置使用到全局，将使

2022-07-14 15:21:20 553

原创 Centos7上安装配置Spark

该文章主要是描述单机版Spark的简单安装，版本为 spark-3.1.3-bin-hadoop3.2.tgz1、Spark 下载、解压、安装Spark官方网站： Apache Spark™ - Unified Engine for large-scale data analytics Spark下载地址：Index of /dist/sparktar -zxvf spark-3.1.3-bin-hadoop3.2.tgz -C /opt/modulemv spark-3.1.3-bi

2022-04-20 17:19:22 6558

原创 Linux-查看磁盘使用情况df/du命令

1、df 命令df：disk free 空余硬盘，df 查看磁盘空间使用情况1）基本语法df 选项（功能描述：列出文件系统的整体磁盘使用量，检查文件系统的磁盘空间占用情况）2）选项说明选项功能查看磁盘使用情况，以 KB 为单位显示 -h 查看磁盘使用情况，但是可以根据磁盘的大小，适当的显示单位 M 或 G（常用） -i 查看分区下面有多少个 inode ，以及 inode 使用情况

2022-04-19 15:40:29 4159

原创 Hue安装、或操作过程中遇到的问题

[Hue-001] 编译Hue时报错，File “/usr/bin/yum“, line 30 except KeyboardInterrupt解决方案：主要是系统自带的python2.7，默认环境是python，你安装python3.x后，更改默认/usr/bin/python的软引用为python3.x导致的。直接修改/usr/bin/yum文件中的第一行为 #!/usr/bin/python2.7[Hue-002] Hue启动报错，OperationalError: attempt to w

2022-04-14 16:22:56 3162

原创 Centos7上安装配置Hue

1、HUE 编译安装Hue官方网站：Hue - The open source SQL Assistant for Data WarehousesHue官方用户手册：Hue Guide :: Hue SQL Assistant Documentation官方安装文档：Install :: Hue SQL Assistant DocumentationHue下载地址：Releases :: Hue SQL Assistant DocumentationHue的官方并没有编译好的软件包，所有其安装

2022-04-12 11:52:52 3040

原创 Linux下安装Python3.x和第三方库

1、安装python3.x（下面的步骤统一使用root用户操作）1.1 安装依赖环境yum -y install zlib-devel bzip2-devel openssl-devel ncurses-devel sqlite-devel readline-devel tk-devel gdbm-devel db4-devel libpcap-devel xz-develpython3.7版本之后需要一个新的包libffi-develyum install libffi-devel

2022-04-01 16:48:11 1775

原创 flink-connector-mysql-cdc_2.0.2

官方参考文档：MySQL CDC Connector — Flink CDC documentationhttps://ververica.github.io/flink-cdc-connectors/master/content/connectors/mysql-cdc.html1、测试步骤：1）开启MySQL Binlog并重启MySQL2）启动HDFS集群[hadoop@linux100 flink-1.13.5]$ start-dfs.sh3）启动Flink集群[hado

2022-03-09 14:01:10 4437 1

原创 Kafka-命令行操作

配置注意点kafka 默认分区为1个，如果更改配置文件的分区数，以后默认创建分区的数据就是更改的分区数。分区数一般根据处理器个数来设置（主要是提高并发处理）+Kafka-命令行操作1）查看当前服务器中的所有topicbin/kafka-topics.sh --zookeeper linux102:2181 --list2）创建topicbin/kafka-topics.sh --zookeeper linux102:2181 \--create --replication

2022-01-27 10:53:29 384

原创 Spark-远程调试

第一种方法：1、启动需要调试项目jar命令：（参考原始命令）./bin/spark-submit --master yarn --deploy-mode cluster \--num-executors 8 \--executor-cores 4 \--executor-memory 12G \--driver-java-options "Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=18888" \--c

2022-01-26 18:18:55 2129

原创 Chapter3 Elasticsearch restful api (DSL)

3.1 elasticsearch的基本概念 cluster 整个elasticsearch 默认就是集群状态，整个集群是一份完整、互备的数据。 node 集群中的一个节点，一般只一个进程就是一个node shard 分片，即使是一个节点中的数据也会通过hash算法，分成多个片存放，默认是5片。（7.0默认改为1片） index 相当于rdbms的d

2022-01-26 14:20:15 136

原创 Chapter2 ElasticSearch的安装

2.1 下载/安装elasticsearch2.1.1 安装包下载Elasticsearch官网： Elasticsearch: The Official Distributed Search & Analytics Engine | ElasticElasticsearch 6.6.0 | Elastic下载好后拷贝到/opt/module/目录下2.1.2 修改配置文件.../elasticsearch-6.6.0/config/elasticsearch.yml...

2022-01-25 18:11:37 1599

原创 Chapter1 Elasticsearch简介

ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是当前流行的企业级搜索引擎。1.1 elasticSearch的使用场景为用户提供按关键字查询的全文搜索功能。实现企业海量数据的处理分析的解决方案。大数据领域的重要一份子，如著名的ELK框架(ElasticSearch,Logstash,Kiban...

2022-01-25 17:03:03 106

原创 Chapter7 Linux-常用基本命令

帮助命令7.1.1 man 获得帮助信息1）基本语法man [命令或配置文件] （功能描述：获得帮助信息）2）显示说明信息功能 NAME 命令的名称和单行描述 SYNOPSIS 怎样使用命令 DESCRIPTION 命令功能的深入讨论 EXAMPLES 怎样使用命令的例子...

2022-01-22 14:49:09 440

原创 IDEA上一些配置问题

1、默认设置（全局设置：只对新文件有效）file –> setting –> code style –> Line separator，选中需要替换的分隔符类型注意： Line separator下面有行小字，applied to new files，意味着该处设置只针对于新增的文件。2、IDEA批量替换文件换行符、分隔符CRLF、LF、CR指定范围设置（可用于老项目改造）1）选中你需要更改的文件目录（或者直接选择父目录），选中的目录代表下面的所有文件都会被更改 lin

2022-01-17 15:16:05 1046

原创 linux下mysql的下载、安装与配置

1、mysql的下载、安装到官网下载linux版本安装包：MySQL :: MySQL Community Downloadshttps://dev.mysql.com/downloads/地址：MySQL :: Download MySQL Community Server (Archived Versions)https://downloads.mysql.com/archives/community/...

2022-01-12 17:50:04 3252

原创大数据 —— CentOS虚拟机配置

1.1 linux100虚拟机配置要求如下（本文Linux系统全部以CentOS-7.5-x86-1804为例）1）使用yum安装需要虚拟机可以正常上网，yum安装前可以先测试下虚拟机联网情况[root@linux100 ~]# ping www.baidu.comPING www.baidu.com (14.215.177.39) 56(84) bytes of data.64 bytes from 14.215.177.39 (14.215.177.39): icmp_seq=1 tt

2022-01-04 22:02:18 1686

原创 VMware、CentOS的安装

1 VMware安装1.1 进入VMware双击VMware图标，看到如下界面1.2 自定义新的虚拟机1.3 解决虚拟机的兼容性1.4 选择当前虚拟机的操作系统1.5 选择虚拟机将来需要安装的系统1.6 配置电脑1.7 设置虚拟机处理器的数量（两者相乘不能超过物理机的cpu个数）1.8 设置虚拟机的内存内存大小有一定要求，建议4G，不能给太多，后期会有多台虚拟机同时启动1.9 选择虚拟机上网方式1）选择NAT的方式2）.

2022-01-04 17:48:06 337

原创 Apache Airflow

Airflow官网：https://airflow.apache.org/集群运行任务情况：大概1300+10min任务：3630min任务：311h任务：45剩下的天、周、月级任务（主要天级）：1200+任务挂了的操作：1）运行成功或者失败都会发邮件、发钉钉、集成自动打电话（项目中遇到的问题）2）最主要的解决方案就是重新跑。3）第三方报警网站：http://www.onealert.com/...

2021-11-16 09:45:37 385

原创 Apache Zookeeper

1、选举机制半数机制：2n+1，安装奇数台10台服务器：3台20台服务器：5台100台服务器：11台台数多，好处：提高可靠性；坏处：影响通信延时2、常用命令ls、get、create、delete3、Paxos算法（扩展）注意：暂时先不用看。如果后期准备面今日头条，需要认真准备，其他公司几乎都不问。Paxos算法一种基于消息传递且具有高度容错特性的一致性算法。分布式系统中的节点通信存在两种模型：共享内存（Shared memory）和消息传递（Messages p

2021-11-15 17:03:54 1586

原创 Apache Kafka

有replica.lag.max.messages（延迟条数）和replica.lag.time.max.ms（延迟时间）两个参数决定一台服务是否可以加入ISR副本队列，在0.10版本移除了replica.lag.max.messages参数，防止服务频繁的进去队列。发送的消息可以是网站的页面访问、服务器日志，也可以是CPU和内存相关的系统资源信息。这个key的作用是为消息选择存储分区，key可以为空，当指定key且不为空的时候，Kafka是根据key的hash值与分区数取模来决定数据存储到那个分区。...

2021-11-14 19:20:45 413

空空如也

空空如也