努力成为咸鱼-CSDN博客

文章目录1、忘记密码，无法登陆1.1 报错现象1.2 处理过程2、修改简易密码报错2.1 报错现象2.2 处理过程3、大小写的敏感报错2.1 报错现象2.2 处理过程1、忘记密码，无法登陆1.1 报错现象ERROR 1130 (HY000): Host ‘172.18.1.1’ is not allowed to connect to this MySQL server --提示无法登陆1.2 处理过程在MySQL中，若密码丢失则无法直接找回，只能通过特殊方式来修改密码。在配置文件中添加如

2022-04-24 15:50:55 1014

原创端口号被占用解决办法

linux中端口号被占用的解决办法1、可以通过ps -ef |grep node命令或netstat -anltp |grep 5601查找对应端口2、使用kill -9 进程号杀掉端口3、重新启动命令

2022-02-19 21:56:40 1645 1

原创海豚调度的安装和使用

文章目录1、上传解压2、修改配置文件2.1、修改mysql链接配置2.2、修改安装配置2.3、修改环境变量3、初始化数据库4、一键部署5、访问dolphinscheduler6、简单使用dolphinscheduler1、上传解压压缩包可自行去官网下载tar -zxvf DolphinScheduler-bin.tar.gz2、修改配置文件cd conf2.1、修改mysql链接配置vim datasource.properties#修改一下配置spring.datasource.dri

2022-02-12 08:27:51 2417

原创 Mysql中表的创建、修改与删除

文章目录1.1 直接创建表1.2 从另一张表复制表结构创建表1.3 从另一张表的查询结果创建2.1 修改表3.1 删除表1.1 直接创建表CREATE TABLE[IF NOT EXISTS] tb_name -- 不存在才创建，存在就跳过(column_name1 data_type1 -- 列名和类型必选 [ PRIMARY KEY -- 可选的约束，主键 | FOREIGN KEY -- 外键，引用其他表的键值 | AUTO_INCREMENT -- 自增ID | COM

2022-01-19 23:04:16 1399

原创 HBase的RowKey设计

HBase的RowKey设计文章目录HBase的RowKey设计rowkey长度原则rowkey散列原则rowkey唯一原则热点问题加盐哈希反转时间戳反转其他一些建议HBase是三维有序存储的，通过rowkey（行键），column key（column family和qualifier）和TimeStamp（时间戳）这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录，在HBase查询的时候，有三种方式：通过get方式，指定rowkey获取唯一一条记录

2022-01-05 20:05:41 1444

原创面对百亿数据，HBase为什么查询速度依然非常快？

文章目录面对百亿数据，HBase为什么查询速度依然非常快？查询过程第1步：第2步：第3步：第4步：总结面对百亿数据，HBase为什么查询速度依然非常快？HBase适合存储PB级别的海量数据（百亿千亿量级条记录），如果根据记录主键Rowkey来查询，能在几十到百毫秒内返回数据。那么HBase是如何做到的呢？接下来，简单阐述一下数据的查询思路和过程。查询过程第1步：项目有100亿业务数据，存储在一个HBase集群上（由多个服务器数据节点构成），每个数据节点上有若干个Region（区域），每个Reg

2022-01-05 20:04:04 1633

原创 spark之RDD的转换算子与行为算子的具体使用

文章目录1、Transform算子1.1 map1.2 flatmap1.3 groupBy和groupBykey1.4 filter1.5 Mappartitions1.6 mapValues1.7 sort1.8 simple1.9 union2、 Actions算子1、Transform算子1.1 mappackage com.shujia.coreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, Sp

2022-01-04 19:20:47 1008

原创 RDD的概念和基本用法

文章目录1、什么是RDD1.1、RDD五大核心属性2、RDD转换算子2.1、单value2.2、双value2.3、Key-Value3、RDD行为算子1、什么是RDDRDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性：内存与磁盘的自动切换；容错的弹性：数据丢失可以自动恢复；计算的弹性：计算出错重试机制；分片的弹性：可

2022-01-04 16:26:13 1507

原创 zookeeper的分布式搭建

文章目录1、上传安装包到master并解压2、配置环境变量3、修改配置文件4、同步到其它节点5、创建/usr/local/soft/zookeeper-3.4.6/data目录,所有节点都要创建6、启动zk7、重置zk1、上传安装包到master并解压tar -xvf zookeeper-3.4.6.tar.gz2、配置环境变量vim /etc/profileexport ZOOKEEPER_HOME=/usr/local/soft/zookeeper-3.4.6export PATH=$P

2022-01-04 12:57:46 1336

原创 scala中的下划线使用总结

这里写目录标题1、方法转化为函数2、获取元组Tuple中的元素3、集合中的每一个元素4、匹配模式5、导包引入的时候6、初始化变量7、队列1、方法转化为函数def f1(a:Int,b:Int)=a+b val f=f1 _ println(f)输出：2、获取元组Tuple中的元素 val tuple1=("hadoop",3.14,100) println( tuple1._1) println( tuple1._2) println( tuple

2021-12-25 13:08:54 872

原创 scala中函数编程思想之函数作为参数的使用（一）

package com.shujiaobject Demo7Func1 {/**函数（方法）可以定义在什么位置？类中、Object中、方法中/def main(args: Array[String]): Unit = {/*def 这是一个函数func1 函数名str1: String, str2: String 函数的参数Unit: 函数的返回值类型，这里相当于void{} : 方法体*/def func1(str1: String, str2: String): Unit

2021-12-24 22:32:33 153

原创 scala中函数编程思想之函数作为参数的使用（二）

package com.shujiaobject Demo8Func2 { def main(args: Array[String]): Unit = { /** * 函数式编程（高阶函数、面向函数编程） * 面向对象编程：把对象传来传去注意在将对象传给函数的时候有类型的限制以及对象作为返回值的时候也有类型的限制 * 面向函数编程：把函数传来传去注意在将函数传给函数的时候有类型的限制以及函数作为返回值的时候也有类型的限制 * *

2021-12-24 22:31:45 313

原创 scala中函数编程思想之函数作为参数的使用（三）

package com.shujiaobject Demo9Func3 { def main(args: Array[String]): Unit = { // 创建一个数组 val array: Array[Int] = Array[Int](1, 2, 3, 4, 5, 6, 7) // 遍历数组 Java的思想 var index: Int = 0 while (index < array.length) { println(arra

2021-12-24 22:29:20 240

原创 scala中list的使用

package com.shujiaobject Demo11List { def main(args: Array[String]): Unit = { /** * List：有序的、不可变的（属于immutable包中），元素可以重复 * 如果将泛型指定为Any => 让元素为任意类型 */ // 定义一个List val list: List[Int] = List[Int](1, 2, 0, 3, 4, 5, 6, 7, 7, 8,

2021-12-24 22:27:27 772

原创 hadoop上传jar时遇到的问题

hadoop分布式搭建遇到的所有问题上传MapReduce的jar包时1、Exception in thread “main” org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /tmp/hadoop-yarn/staging/root/.staging/job_1625723817019_0003/job.jar could only be replicated to 0 nodes instead of minRepli

2021-12-23 22:20:07 1258

原创 python爬取数据问题

当python爬取网站出现以下的错误的时候：解决办法：

2021-12-19 22:01:18 465

原创 pandas数据分析之数据清洗（下）

2、预备知识-python核心用法常用数据分析库文章目录2、预备知识-python核心用法常用数据分析库概述实验环境任务二：Pandas数据分析实战-1【任务目标】【任务步骤】分析数据问题任务三：Pandas数据分析实战-2【任务目标】【任务步骤】处理问题一处理问题二处理问题三四概述Python 是当今世界最热门的编程语言，而它最大的应用领域之一就是数据分析。在python众多数据分析工具中，pandas是python中非常常用的数据分析库，在数据分析，机器学习，深度学习等领域经常被使用。使用 Pan

2021-12-16 13:38:31 370

原创 pandas数据分析之数据清洗（上）

1、预备知识-python核心用法常用数据分析库（上）文章目录1、预备知识-python核心用法常用数据分析库（上）概述实验环境任务一：环境安装与配置【实验目标】【实验步骤】任务二：Pandas数据分析实战【任务目标】【任务步骤】概述Python 是当今世界最热门的编程语言，而它最大的应用领域之一就是数据分析。在python众多数据分析工具中，pandas是python中非常常用的数据分析库，在数据分析，机器学习，深度学习等领域经常被使用。使用 Pandas 我们可以 Excel/CSV/TXT/My

2021-12-16 13:35:24 1118

原创 datax的安装和使用

DataX的安装及使用文章目录DataX的安装及使用DataX的安装DataX的使用stream2stream编写配置文件stream2stream.json执行同步任务执行结果mysql2mysql编写配置文件mysql2mysql.json执行同步任务mysql2hdfs编写配置文件mysql2hdfs.jsonhbase2mysqlmysql2hbasemysql2Phoenix在Phoenix中创建STUDENT表编写配置文件MySQLToPhoenix.jsonHDFSToHBaseDataX

2021-12-08 10:15:58 615

原创 Flinkx的安装和使用

文章目录1、Flinkx的简介2、FlinkX的安装与简单使用2.1 FlinkX的安装2.2 FlinkX的简单使用MySQLToHDFSMySQLToHiveMySQLToHBaseMySQLToMySQL1、Flinkx的简介FlinkX是在是袋鼠云内部广泛使用的基于flink的分布式离线和实时的数据同步框架，实现了多种异构数据源之间高效的数据迁移。不同的数据源头被抽象成不同的Reader插件，不同的数据目标被抽象成不同的Writer插件。理论上，FlinkX框架可以支持任意数据源类型的数据同步

2021-12-07 21:59:15 3001

原创 sqoop中的数据增量问题

文章目录1、简介2、操作说明2.1指定字段的取值范围，增量导数据2.1适用于表不断的有新数据插入(时间的改变)2.3导入id大于等于last-value的数据2.4导入--check-column指定的last_mod列1、简介check-column: 用来指定一些列，这些列在增量导入时用来检查这些数据是否作为增量数据进行导入，和关系型数据库中的自增字段及时间戳类似.注意:这些被指定的列的类型不能使任意字符类型，如char、varchar等类型都是不可以的，同时–check-column可以去指定

2021-12-06 21:30:33 700

原创 hadoop分布式搭建与环境配置

文章目录1、关闭防火墙所有节点1.1查看防火墙的状态2、设置免密钥3、上传hadoop安装包4、解压5、配置环境变量6、修改配置文件6.1、slaves ：从节点列表（datanode）6.2、hadoop-env.sh ： Hadoop 环境配置文件6.3、core-site.xml ： hadoop核心配置文件6.6、mapred-site.xml： mapreduce配置文件7、将hadoop安装文件同步到子节点8、格式化namenode9、启动hadoop10、访问hdfs页面验证是否安装成功

2021-12-06 20:13:17 1138

原创 sqoop的使用和安装

SQOOP安装及使用文章目录SQOOP安装及使用SQOOP安装1、上传并解压2、修改文件夹名字3、修改配置文件4、修改环境变量5、添加MySQL连接驱动6、测试准备MySQL数据登录MySQL数据库创建student数据库切换数据库并导入数据另外一种导入数据的方式使用Navicat运行SQL文件导出MySQL数据库importMySQLToHDFS编写脚本，保存为MySQLToHDFS.conf执行脚本注意事项：MySQLToHive编写脚本，并保存为MySQLToHIVE.conf文件在Hive中创建t

2021-12-06 19:42:36 168

原创 flume的安装及使用

文章目录1、flume的安装及使用1.1 flume的安装1.1.1、下载安装包，并上传到虚拟机，解压1.1.2、重命名目录，并配置环境变量1.1.3、查看flume的版本1.1.4、测试flume2、 flume的简介2.2 flume的定义2.2 flume的基础架构1、flume的安装及使用1.1 flume的安装1.1.1、下载安装包，并上传到虚拟机，解压(https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#

2021-12-05 22:35:21 364

qq_45992615的博客

原创 shell脚本编写的一些指令

原创 mysql的经典错误