- 博客(107)
- 收藏
- 关注
原创 数据结构笔记
一、数据结构概述数据结构包括:案例:五子棋的数据的存盘和继续上次棋盘如果用二维数组进行连续存储数据,会记录很多无意义的数据稀疏数组适用范围:稀疏数组处理方法:稀疏数组,可以用来保存二维数组(eg:棋盘、地图等)二维数组转稀疏数组的思路:遍历二维数组,得到有效数据的个数 sum (即:知道列的个数,而行的个数是固定的3)根据sum就可以创建稀疏数组spareseArr int将二维数组的有效数据存入到稀疏数组(第一行数据为:行个数、列个数、数据个数)稀疏数组的形状:[数据个数+1,3]稀疏数组转二维数组的思路
2023-03-20 11:16:37 1893 1
原创 解决:org.codehaus.jackson.JsonParseException:Unexpected end-of-input: expected close marker for OBJEC
row format也是每次序列化一行数据。今天将json文件导到Hive表中,出现。错误,不能解析json文件。:将json字符串放一行即可。来解析json文件。
2023-01-14 20:40:51 1225
原创 Hive on Spark中遇到的Failed to create Spark client for Spark session的问题
占用,而导致Map Task和 Reduce Task不能执行。在生产中不需要调整,在这里调整主要是我自己电脑资源不足导致的。参数实现的,默认值为0.1,即10%的资源。主要是为了防止大部分资源的被。可以通过rsync 或者 scp 分发给其他节点中。在自学数仓项目中,遇到以下问题。,它会每个资源队列中运行的。占用的资源进行啦限制,是在。导致出现这个问题主要是。文件分发给其他节点中。
2023-01-05 15:51:53 2126 3
原创 linux命令date
date命令可以获取到当前系统时间,主要是为了shell脚本的。第一张图为:选项(options)第二张图:格式(format)语法:date -r 文件名。显示文件修改的最后日期。
2022-12-24 00:33:37 1505
原创 Sqoop安装教程
Sqoop主要使用来将Hadoop的数据与传统关系数据库数据的导出和导出,将关系型数据库的数据导入到HDFS中,也可以将HDFS的数据导出到关系型数据库中。Sqoop 底层原理:主要是通过将导入、导出的命令转成成MapReduce,通过map来导入导出。中添加以下内容,Hadoop、Hbase、Hive、zookeeper的安装路径。测试Sqoop是否能够成功连接数据库,并展示MySQL中数据库。将sqoop文件上传到Linux中,将文件上传到。,只需要里面的jar包。
2022-12-18 12:06:13 733
原创 flume安装教程
(谷歌开发的工具包,但是和其他的组件的版本不统一)进行到flume的安装路径中,需要修改conf中。,并在里面添加JDK的路径。
2022-11-28 17:37:14 709
原创 Hbase2.4.11安装
分发成功后,需要分别在hadoop2、hadoop3中执行。添加下面,主要的目的是为了让hbase使用外部zk。将HBase分发到Hadoop2、hadoop3上。启动Hbase后,可以通过jps查看一下进程。后面的路径需要修改成自己安装的路径。类似于hadoop的workers。添加hbase的路径到环境变量中。进入到hbase的conf目录中。文件上传的Linux系统中。获取hbase的安装路径。在里面hbase的集群加上。,重新执行加载环境变量。
2022-11-08 17:34:11 1639
原创 numpy快速处理数据学习笔记
当标准的ufunc函数不能满足我们使用的时候,我们可自定义ufunc函数。自定义ufunc函数一样可以作用域数组每一个元素。自定义ufunc函可用c语言、python(缺点:执行效率低)、c和python交叉。
2022-10-10 17:56:12 704
原创 centos7中安装mongoDB4
当前文件的者是root,因此需要将用所有者换成。先添加复制路径,添加到环境变量的路径是需要到。,让修改的环境立刻生效,不需要重启Linux。需要在mongodb里面,创建。上传文件,我将文件上传到。
2022-09-30 22:13:48 1002
原创 MySQL34道例题
MySQL34道例题使用:1、创建一个text的文本文件,将下面的SQL语句复制到文本文件中2、将后缀改为.sql3、在数据库中创建一个新的数据库(create database 数据库名),再使用数据库(use 数据库名)4、source XX.sql 导入脚本文本文件1、取得每个部门最高薪水的人员名称第一步:找到每一个部门的最大值,因此需要根据部门编号进行分组,再筛选出最大值第二步:将上面这个做为一张临时表2、哪些人的薪水在部门平均薪水之上思路:第一步:找出每一个部门的平均工资第二步:将表进行
2022-09-16 21:20:01 383
原创 Kafka2.4.1的环境搭建
hadoop2、hadoop3的ip地址是我在hadoop1的host中映射了的。注意:配置文件中的Hadoop1、hadoop2、hadoop3是我自己的集群,需要自己修改,(分别需要在hadoop1、hadoop2、hadoop3中进行执行)集群hadoop1、hadoop2、hadoop3,并且分别搭建好。在每台hadoop1、hadoop2、hadoop3中执行。补充知识:Apache的大数据组件各个版本的兼容。每台集群的broker.id值进行修改。,并且id的数据是唯一的,.........
2022-08-17 23:26:58 1390 3
原创 Hadoop HA 集群搭建,基于hadoop3
HadoopHA需要先看、的知识,才能来使用HadoopHA注意HadoopHA主要分成HDFSHA和YarnHA。
2022-07-21 20:14:18 952 8
原创 centos7 中彻底卸载mysql
很早之前,在centos中安装了mysql5.7,现在想要卸载掉。centos7中彻底卸载mysql。1、查看当前系统安装的MySQL。-nodeps是忽略依赖。
2022-07-20 20:48:26 962
原创 Linux——逻辑分区
Linux——逻辑分区在对普通的硬盘分区后,发型磁盘空间不够时或者发型磁盘分配过大,如果想要重新进行规划硬盘,就需要对硬盘进行重新格式化,手动把里面的数据就要复制出来,等分配好重新在移动到新的硬盘中。为了解决上面动态添加空间的不便——逻辑卷管理器(Logical volume manager,LVM)。好处:可以轻松的对磁盘进行管理,增加和减少硬盘的大小。逻辑卷管理的核心在于如何处理安装在系统上的硬盘分区。下面有几个重要概念:主要是用创建分区后,再通过将分区类型进行转换补充知识:,可以查看list know
2022-07-13 21:33:00 6187 1
原创 Linux——硬盘分区
Linux——硬盘分区学习给Linux新增加硬盘注意在虚拟机中需要将后,才能进行修改点击选择选择硬盘,并点击下一步选择磁盘类型为为了测试只划分了6G注意这点一定要====,才能保存通过 ,查看系统磁盘使用情况,并显示文件系统信息,确定磁盘名字新的添加磁盘盘名为:补充小知识:接下来通过来创建分区,主要需要使用root用户权限才可以[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a3KbyHgM-1657702118506)(C:/Users/%E6%80%9D%E9%9D%
2022-07-13 17:11:42 2856
原创 Linux——umask命令
umask命令用来设置所创建的文件和目录的默认设置权限。随便创建一个目录和文件的权限都是固定的输入命令:结果为:通过-S参数,直观理解数字注意:补充小知识:但是注意eg:目录的权限:文件的权限:用户:rw- 读写组用户:rw- 读写其他用户:r-- 读执行权限 x 是默认没有的,不管那个用户都没有的将权限修改成:目录拥有者权限:rwx目录的所属组的权限:r-x目前的其他用户的权限:r-x修改/etc/profile中配置...
2022-07-11 14:56:22 4951
原创 linux中添加环境变量
Linux 中添加环境变量一般是在/etc/profile中添加环境,但是建议在/etc/profile.d/下创建一个以.sh结尾的文件输入i进入编辑模式eg:添加Java的环境注意:全局变量需要用大写,局部变量用小写按ESC退出编辑模式到命令模式,并输入进行保存,该知识点是vim的重启环境,只需要重新执行补充知识:Linux 环境变量相关知识点1. PATHPATH环境变量定义了用于进行查找的目录,便于外部命令的查找,并且目录之间是通过分隔开的如果命令或者程序的位置没有包括在PATH的目录中
2022-07-09 18:08:09 4365
原创 Linux——alias命令(设置命令别名)
Linux——alias命令(设置命令别名)alias 是shell内建命令(即shell中自带的命令),它可以将常用的命令以及它的参数创建一个别名,来减少命令的输入量我们常用的一些命令就是别名eg:ls 、lleg:注意:别名的作用范围,对子shell也没有无效,退出当前shell之后也无效如果先要别名的作用持久化,可以将命令放着到启动文件中,或者在中也可以在中添加别名命令启动之后,会从5个启动文件中读取命令,5个启动文件如下:/etc/profile 主启动文件用户专属的启动文件$HOME
2022-07-09 17:00:53 6004
原创 Linux——history命令
Linux——history命令history 用于管理命令的历史记录,通常会保存最近的1000条命令记录注意:命令历史记录会保存在,但是bash命令的历史记录是先存放在内存中,当shell退出时才被写入到历史文件中,也可以通过 强制写入通过对比bash_history记录和history的记录最后几行截图查询出的最后几条,发现最后几条在中没有通过来强制将内存中历史命令写到中会清空内存缓存之中的历史命令记录,但是不会删除bash_history的记录读取bash_history的命令记录到内存缓存
2022-07-08 11:29:14 2000
原创 Linux中删除中带空格文件的办法
今天想要删除HDFS中带空格的文件直接用,会出现下面的错误通过通配符来解决补充知识: 匹配全部字符 匹配任意一个字符将文件名用引号引起来
2022-06-22 15:33:56 600
原创 RDD基础知识点
RDD:一个容错的、只读的、可进行并行操作的数据结构,是一种分布在集群各个节点的==存储元素的集合==RDD有3种方法创建parallelize有两个参数makeRDD的参数方法和一样属于:转换操作map是一种基础的RDD转换操作,用于将RDD中每一个数据元素通过某种函数进行转换并会生成新RDD,但是不会立即计算。由于RDD的特点是只读的、不可变的,因此进行修改后,必定会生成新RDDeg:将5个数据进行平方属于:转换操作flatMap是进行map,再进行flat(展平)eg:进行语句分割属于:转换操作
2022-06-21 19:06:14 537
原创 解决:java.net.NoRouteToHostException: 没有到主机的路由
解决:java.net.NoRouteToHostException: 没有到主机的路由在执行spark程序的jar包时,出现下面问题查看: http://wiki.apache.org/hadoop/NoRouteToHost中,提示如下可以根据上面查找问题我出现是虚拟机之间的防火墙没有关闭查看防火墙状态...
2022-06-07 22:16:51 18998
原创 hadoop查看默认的配置文件
一、默认配置文件默认的配置文件在 $HADOOP_HOME/share/hadoop($HADOOP_HOME是取环境变量中hadoop的路径)进入到该目录下: cd $HADOOP_HOME/share/hadoop有以下几个目录:默认配置文件就在红框中(common、hdfs、mapreduce、yarn)补充知识:配置文件介绍cores-site.xml : 负责全局的配置(common)hdfs-site.xml:负责hdfs的配置mapred-site.xml: 负责
2022-04-30 19:07:57 4159
原创 linux 远程拷贝命令
一、scp命令 --远程拷贝文件Linux scp命令用于linux之间进行复制文件scp 是secure copy 的缩写,scp 是基于ssh登录来进行安全拷贝补充知识:ssh进行登陆ssh 用户名@IP地址scp优势:当服务器的磁盘变为read only system时,可以通过scp将文件移出。scp 不占资源,不会提高系统负荷。rsync虽然比scp的传输速度快,大量的小文件会导致硬盘I/O非常高,会影响系统正常使用。1、从远程复制文件到本地目录scp -r 用户@I
2022-04-28 00:36:10 20343 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人