自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 shell脚本编写的一些指令

shell脚本编写的一些指令

2022-08-19 14:56:38 339 2

原创 mysql的经典错误

文章目录1、忘记密码,无法登陆1.1 报错现象1.2 处理过程2、修改简易密码报错2.1 报错现象2.2 处理过程3、大小写的敏感报错2.1 报错现象2.2 处理过程1、忘记密码,无法登陆1.1 报错现象ERROR 1130 (HY000): Host ‘172.18.1.1’ is not allowed to connect to this MySQL server --提示无法登陆1.2 处理过程在MySQL中,若密码丢失则无法直接找回,只能通过特殊方式来修改密码。在配置文件中添加如

2022-04-24 15:50:55 1014

原创 端口号被占用解决办法

linux中端口号被占用的解决办法1、可以通过ps -ef |grep node命令或netstat -anltp |grep 5601查找对应端口2、使用kill -9 进程号 杀掉端口3、重新启动命令

2022-02-19 21:56:40 1645 1

原创 海豚调度的安装和使用

文章目录1、上传解压2、修改配置文件2.1、修改mysql链接配置2.2、修改安装配置2.3、修改环境变量3、初始化数据库4、一键部署5、访问dolphinscheduler6、简单使用dolphinscheduler1、上传解压压缩包可自行去官网下载tar -zxvf DolphinScheduler-bin.tar.gz2、修改配置文件cd conf2.1、修改mysql链接配置vim datasource.properties#修改一下配置spring.datasource.dri

2022-02-12 08:27:51 2417

原创 Mysql中表的创建、修改与删除

文章目录1.1 直接创建表1.2 从另一张表复制表结构创建表1.3 从另一张表的查询结果创建2.1 修改表3.1 删除表1.1 直接创建表CREATE TABLE[IF NOT EXISTS] tb_name -- 不存在才创建,存在就跳过(column_name1 data_type1 -- 列名和类型必选 [ PRIMARY KEY -- 可选的约束,主键 | FOREIGN KEY -- 外键,引用其他表的键值 | AUTO_INCREMENT -- 自增ID | COM

2022-01-19 23:04:16 1399

原创 HBase的RowKey设计

HBase的RowKey设计文章目录HBase的RowKey设计rowkey长度原则rowkey散列原则rowkey唯一原则热点问题加盐哈希反转时间戳反转其他一些建议HBase是三维有序存储的,通过rowkey(行键),column key(column family和qualifier)和TimeStamp(时间戳)这个三个维度可以对HBase中的数据进行快速定位。HBase中rowkey可以唯一标识一行记录,在HBase查询的时候,有三种方式:通过get方式,指定rowkey获取唯一一条记录

2022-01-05 20:05:41 1444

原创 面对百亿数据,HBase为什么查询速度依然非常快?

文章目录面对百亿数据,HBase为什么查询速度依然非常快?查询过程第1步:第2步:第3步:第4步:总结面对百亿数据,HBase为什么查询速度依然非常快?HBase适合存储PB级别的海量数据(百亿千亿量级条记录),如果根据记录主键Rowkey来查询,能在几十到百毫秒内返回数据。那么HBase是如何做到的呢?接下来,简单阐述一下数据的查询思路和过程。查询过程第1步:项目有100亿业务数据,存储在一个HBase集群上(由多个服务器数据节点构成),每个数据节点上有若干个Region(区域),每个Reg

2022-01-05 20:04:04 1633

原创 spark之RDD的转换算子与行为算子的具体使用

文章目录1、Transform算子1.1 map1.2 flatmap1.3 groupBy和groupBykey1.4 filter1.5 Mappartitions1.6 mapValues1.7 sort1.8 simple1.9 union2、 Actions算子1、Transform算子1.1 mappackage com.shujia.coreimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, Sp

2022-01-04 19:20:47 1008

原创 RDD的概念和基本用法

文章目录1、什么是RDD1.1、RDD五大核心属性2、RDD转换算子2.1、单value2.2、双value2.3、Key-Value3、RDD行为算子1、什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。弹性存储的弹性:内存与磁盘的自动切换;容错的弹性:数据丢失可以自动恢复;计算的弹性:计算出错重试机制;分片的弹性:可

2022-01-04 16:26:13 1507

原创 zookeeper的分布式搭建

文章目录1、上传安装包到master并解压2、配置环境变量3、修改配置文件4、同步到其它节点5、创建/usr/local/soft/zookeeper-3.4.6/data目录,所有节点都要创建6、启动zk7、重置zk1、上传安装包到master并解压tar -xvf zookeeper-3.4.6.tar.gz2、配置环境变量vim /etc/profileexport ZOOKEEPER_HOME=/usr/local/soft/zookeeper-3.4.6export PATH=$P

2022-01-04 12:57:46 1336

原创 scala中的下划线使用总结

这里写目录标题1、方法转化为函数2、 获取元组Tuple中的元素3、 集合中的每一个元素4、匹配模式5、导包引入的时候6、初始化变量7、队列1、方法转化为函数def f1(a:Int,b:Int)=a+b val f=f1 _ println(f)输出:2、 获取元组Tuple中的元素 val tuple1=("hadoop",3.14,100) println( tuple1._1) println( tuple1._2) println( tuple

2021-12-25 13:08:54 872

原创 scala中函数编程思想之函数作为参数的使用(一)

package com.shujiaobject Demo7Func1 {/**函数(方法)可以定义在什么位置?类中、Object中、方法中/def main(args: Array[String]): Unit = {/*def 这是一个函数func1 函数名str1: String, str2: String 函数的参数Unit: 函数的返回值类型,这里相当于void{} : 方法体*/def func1(str1: String, str2: String): Unit

2021-12-24 22:32:33 153

原创 scala中函数编程思想之函数作为参数的使用(二)

package com.shujiaobject Demo8Func2 { def main(args: Array[String]): Unit = { /** * 函数式编程(高阶函数、面向函数编程) * 面向对象编程:把对象传来传去 注意在将对象传给函数的时候有类型的限制 以及 对象作为返回值的时候也有类型的限制 * 面向函数编程:把函数传来传去 注意在将函数传给函数的时候有类型的限制 以及 函数作为返回值的时候也有类型的限制 * *

2021-12-24 22:31:45 313

原创 scala中函数编程思想之函数作为参数的使用(三)

package com.shujiaobject Demo9Func3 { def main(args: Array[String]): Unit = { // 创建一个数组 val array: Array[Int] = Array[Int](1, 2, 3, 4, 5, 6, 7) // 遍历数组 Java的思想 var index: Int = 0 while (index < array.length) { println(arra

2021-12-24 22:29:20 240

原创 scala中list的使用

package com.shujiaobject Demo11List { def main(args: Array[String]): Unit = { /** * List:有序的、不可变的(属于immutable包中),元素可以重复 * 如果将泛型指定为Any => 让元素为任意类型 */ // 定义一个List val list: List[Int] = List[Int](1, 2, 0, 3, 4, 5, 6, 7, 7, 8,

2021-12-24 22:27:27 772

原创 hadoop上传jar时遇到的问题

hadoop分布式搭建遇到的所有问题上传MapReduce的jar包时1、Exception in thread “main” org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /tmp/hadoop-yarn/staging/root/.staging/job_1625723817019_0003/job.jar could only be replicated to 0 nodes instead of minRepli

2021-12-23 22:20:07 1258

原创 python爬取数据问题

当python爬取网站出现以下的错误的时候:解决办法:

2021-12-19 22:01:18 465

原创 pandas数据分析之数据清洗(下)

2、预备知识-python核心用法常用数据分析库文章目录2、预备知识-python核心用法常用数据分析库概述实验环境任务二:Pandas数据分析实战-1【任务目标】【任务步骤】分析数据问题任务三:Pandas数据分析实战-2【任务目标】【任务步骤】处理问题一处理问题二处理问题三四概述Python 是当今世界最热门的编程语言,而它最大的应用领域之一就是数据分析。在python众多数据分析工具中,pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。使用 Pan

2021-12-16 13:38:31 370

原创 pandas数据分析之数据清洗(上)

1、预备知识-python核心用法常用数据分析库(上)文章目录1、预备知识-python核心用法常用数据分析库(上)概述实验环境任务一:环境安装与配置【实验目标】【实验步骤】任务二:Pandas数据分析实战【任务目标】【任务步骤】概述Python 是当今世界最热门的编程语言,而它最大的应用领域之一就是数据分析。在python众多数据分析工具中,pandas是python中非常常用的数据分析库,在数据分析,机器学习,深度学习等领域经常被使用。使用 Pandas 我们可以 Excel/CSV/TXT/My

2021-12-16 13:35:24 1118

原创 datax的安装和使用

DataX的安装及使用文章目录DataX的安装及使用DataX的安装DataX的使用stream2stream编写配置文件stream2stream.json执行同步任务执行结果mysql2mysql编写配置文件mysql2mysql.json执行同步任务mysql2hdfs编写配置文件mysql2hdfs.jsonhbase2mysqlmysql2hbasemysql2Phoenix在Phoenix中创建STUDENT表编写配置文件MySQLToPhoenix.jsonHDFSToHBaseDataX

2021-12-08 10:15:58 615

原创 Flinkx的安装和使用

文章目录1、Flinkx的简介2、FlinkX的安装与简单使用2.1 FlinkX的安装2.2 FlinkX的简单使用MySQLToHDFSMySQLToHiveMySQLToHBaseMySQLToMySQL1、Flinkx的简介FlinkX是在是袋鼠云内部广泛使用的基于flink的分布式离线和实时的数据同步框架,实现了多种异构数据源之间高效的数据迁移。不同的数据源头被抽象成不同的Reader插件,不同的数据目标被抽象成不同的Writer插件。理论上,FlinkX框架可以支持任意数据源类型的数据同步

2021-12-07 21:59:15 3001

原创 sqoop中的数据增量问题

文章目录1、简介2、操作说明2.1指定字段的取值范围,增量导数据2.1适用于表不断的有新数据插入(时间的改变)2.3导入id大于等于last-value的数据2.4导入--check-column指定的last_mod列1、简介check-column: 用来指定一些列,这些列在增量导入时用来检查这些数据是否作为增量数据进行导入,和关系型数据库中的自增字段及时间戳类似.注意:这些被指定的列的类型不能使任意字符类型,如char、varchar等类型都是不可以的,同时–check-column可以去指定

2021-12-06 21:30:33 700

原创 hadoop分布式搭建与环境配置

文章目录1、关闭防火墙 所有节点1.1查看防火墙的状态2、设置免密钥3、上传hadoop安装包4、解压5、配置环境变量6、修改配置文件6.1、slaves : 从节点列表(datanode)6.2、hadoop-env.sh : Hadoop 环境配置文件6.3、core-site.xml : hadoop核心配置文件6.6、mapred-site.xml: mapreduce配置文件7、将hadoop安装文件同步到子节点8、格式化namenode9、启动hadoop10、访问hdfs页面验证是否安装成功

2021-12-06 20:13:17 1138

原创 sqoop的使用和安装

SQOOP安装及使用文章目录SQOOP安装及使用SQOOP安装1、上传并解压2、修改文件夹名字3、修改配置文件4、修改环境变量5、添加MySQL连接驱动6、测试准备MySQL数据登录MySQL数据库创建student数据库切换数据库并导入数据另外一种导入数据的方式使用Navicat运行SQL文件导出MySQL数据库importMySQLToHDFS编写脚本,保存为MySQLToHDFS.conf执行脚本注意事项:MySQLToHive编写脚本,并保存为MySQLToHIVE.conf文件在Hive中创建t

2021-12-06 19:42:36 168

原创 flume的安装及使用

文章目录1、flume的安装及使用1.1 flume的安装1.1.1、下载安装包,并上传到虚拟机,解压1.1.2、重命名目录,并配置环境变量1.1.3、查看flume的版本1.1.4、测试flume2、 flume的简介2.2 flume的定义2.2 flume的基础架构1、flume的安装及使用1.1 flume的安装1.1.1、下载安装包,并上传到虚拟机,解压(https://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html#

2021-12-05 22:35:21 364

原创 Hbase简介

文章目录#Hbase简介##1.1Hbase定义##1.2Hbase数据模型###1.2.1Hbase逻辑结构###1.2.2Hbase物理存储结构###1.2.3数据模型##1.3 Hbase基本架构1.1 Hbase定义HBase 是一种分布式、可扩展、支持海量数据存储的 NoSQL 数据库。1.2Hbase数据模型逻辑上,HBase 的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从 HBase 的底层物理存储结构(K-V)来看,HBase 更像是一个 multi

2021-12-05 17:31:41 109

原创 java中的文档注释的用法

java中的文档注释格式:/**文档注释:注释内容可以被JDK提供的工具javadoc所解析,生成一套以网页文件形式体现的该程序的说明文档。@author dan@version v1.0这是我的第一个java程序!非常的开心*/进入dos命令后,在所在的java程序目录下输入javadoc -d mydoc -author -version JavaTest.java在目录下就有mycode文件夹生成。...

2021-09-15 19:11:41 66

原创 cmd命令行的乱码问题

dos窗口乱码问题(执行某个命令是出现多个问号):cmd窗口的代码页默认是437美国使用chcp 936 命令,将代码页默认值改成936后,短暂的解决了。

2021-09-13 18:40:24 225 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除