![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据开发相关技术学习笔记
文章平均质量分 66
小雏菊的成长
大数据开发,搬砖人
展开
-
hive指定字段插入数据,包含了分区表和非分区表
hive指定字段插入数据,包含了分区表和非分区表原创 2023-09-05 10:48:33 · 1090 阅读 · 0 评论 -
Doris-1.2.3 详细安装教程&doris-1.2.3性能测试教程
Doris-1.2.3 详细安装教程&doris-1.2.3性能测试教程这是一个详细的安装和测试教程,包含了二进制包的版本选择和下载,FE、BE节点的部署,ssb数据集性能测试和tpch数据集性能测试。都有详细的教程和截图、步骤讲解原创 2023-06-19 16:28:25 · 853 阅读 · 1 评论 -
hive实操大全,目前最全最详细的了
本篇博客是hive操作的详细记录及案例实操原创 2023-05-11 11:11:44 · 664 阅读 · 0 评论 -
Java高频面试题--String和集合相关问题的整理和原理介绍,全网最详细的了
Java面试的高频提问问题的原理和答案,包括了StringBuffer类和StringBuilder类、Java集合相关、List接口相关、Set接口相关、Map接口相关,具有比较详细的原理介绍。原创 2023-04-30 13:14:05 · 624 阅读 · 0 评论 -
Scala 版Spark SQL详细教程、Spark SQL原理特点及Saprk SQL Scala编程demo,Scala UDF和UDAF函数自定义demo
1、Spark Sql的原理,包含了DataFrame、DataSet的原理以及 RDD、DataFarme、DataSet之间的的发展史、三者共性;2、讲述了Spark SQL的特点3、讲述了Spark SQL的Scala编程,主要包括:RDD与DataFrame相互转换、RDD与DataSet相互转换、DataFrame与DataSet相互转换4、主要讲述了Spark SQL使用Scala自定义UDF函数和UDAF函数注意:Spark SQL是没有UDTF函数的,但是可以使用flatmap方法来原创 2023-04-30 12:59:51 · 469 阅读 · 0 评论 -
hive 删除原外部表,新建一样新表,同步原分区元数据的命令方法:msck repair table 表名
hive删除原外部表,新建一样新表,同步元数据的命令方法:msck repair table 表名原创 2022-03-10 21:09:38 · 2236 阅读 · 0 评论 -
Spark之SparkStreaming Kafka数据源
不同版本的offset存储位置1、0-8 ReceiverAPI offset默认存储在:Zookeeper中2、0-8 DirectAPI offset默认存储在:CheckPoint3、0-10 DirectAPI offset默认存储在:_consumer_offsets系统主题手动维护:MySQL等有事务的存储系统# 需求通过SparkStreaming从Kafka读取数据,并将读取过来的数据做简单计算,最终打印到控制台。原创 2022-02-18 20:07:08 · 1132 阅读 · 0 评论 -
Spark Transformation 算子总结笔记
由于本篇文章写的内容多,且杂,加上本人在写的过程中还加入了大量解释,为此本篇文章会设置成粉丝可见,请谅解!本篇文章主要包含了Spark Transformation 算子的value算子(1、map()映射2、mapPartitions()以分区为单位执行Mapmap()和mapPartition()的区别:3、mapPartitionsWithIndex()带分区号4、flatMap()扁平化6、groupBy()分组(包含四种方法取首字母)7、GroupBy()之WordCount原创 2022-03-31 16:51:58 · 1009 阅读 · 0 评论 -
SparkStreaming WordCount入门案例
简单的SparkStreaming WordCount入门案例原创 2022-02-16 19:06:09 · 517 阅读 · 0 评论 -
SparkSqlOnHive项目实战--各区域热门商品Top3
SparkSQL项目实战--各区域热门商品Top3原创 2022-02-16 18:29:40 · 1136 阅读 · 0 评论 -
Spark第一个应用--WordCount
Spark第一个应用,Scala语言写的WordCount原创 2022-01-24 12:15:36 · 2032 阅读 · 0 评论 -
Scala WorldCount简单案例和简单复杂案例
Scala WorldCount简单案例和简单复杂案例,供自己以后学习用原创 2022-01-23 19:12:09 · 327 阅读 · 0 评论 -
flume多路复用及拦截器的使用
需求使用flume采集服务器本地日志,需要按照日志类型的不同来将不同种类的日志发往不同的分析系统需求分析及原理在开发当中,一台服务器产生的日志类型往往是有很多种的,在不同类型的日志有可能要发往不同的分析系统,在这个时候就会用到flume的channel selector中的Multiplexing结构。其原理是:根据event中header的某个key值,将不同的event发送到不同的channel中,所以我们需要自定义一个interceptor,来为不同类型的event的header中的key赋不同原创 2022-01-07 11:03:37 · 994 阅读 · 0 评论 -
hbase java代码API
本篇博客是hbase api java代码的相关代码,主要包括ddl部分的命名空间创建,表的创建,表的修改,表的删除,dml部分包含数据的插入,数据的修改,数据的查询,数据的删除操作。原创 2022-01-04 15:54:32 · 1148 阅读 · 0 评论 -
hive的基本操作,DDL的数据定义,对表的增删查改,对表数据的增删查改(DML),数据的导入和导出,创建管理表,外部表,内外部表的互相转换,表的修改和替换,常用函数,自定义函数,窗口函数
本篇博客主要是接介绍hive的基本操作,包括安装步骤,主要包含一下内容:DDL的数据定义,对表的增删查改,对表数据的增删查改(DML),数据的导入和导出,创建管理表,外部表,内外部表的互相转换,表的修改和替换,常用函数,自定义函数,窗口函数等。原创 2022-01-03 17:35:52 · 1019 阅读 · 0 评论 -
手撸kafka producer生产者的分区器(partition)API
本篇博客是对kafka produce 生产者分区器的API(Java) 包含以下内容:分区使用原则,分区器使用原则,分区器相关代码编写及pom.xml配置文件编写,到最后的运行结果。使用kafka producer分区器的好处:1、方便在集群中扩展2、可以提高并发性分区原则1、 指明 partition 的情况下,直接将指明的值直接作为 partiton 值;2、没有指明 partition 值但有 key 的情况下,将 key 的 hash 值与 topi原创 2022-01-10 19:46:48 · 1220 阅读 · 0 评论 -
hadoop2.x和hadoop3.x新特性-面试用
集群间的数据拷贝scp实现两个远程主机之间的文件复制scp -r hello.txt root@bdc113:/user/lqs/hello.txt //推 pushscp -r root@bdc113:/user/lqs/hello.txt hello.txt // 拉 pullscp -r root@bdc113:/user/lqs/hello.txt root@bdc114:/user/lqs//是通过本地主机中转实现两个远程主机的文件复制;如果在两个远程主机之间 ssh 没有配置的情况下可以原创 2021-12-21 20:28:16 · 970 阅读 · 0 评论 -
使用Zookeeper API 对Zookeeper的增删查改操作
本篇博客主要是使用Zookeeper的API对Zookeeper的增删查改,但是在递归实现节点的数据变化监控时,这里始终没有写好,希望有大神帮我指点迷津,感谢!原创 2021-12-19 18:19:14 · 351 阅读 · 0 评论 -
Zookeeper客户端命令操作--增删查改
本篇博客主要是对Zookeeper的操作,包含了:查看当前节点详细数据、创建普通节点和临时节点、获取节点的值、创建带序号节点、修改节点的数据值、节点值变化监听、节点的子节点变化监听(路径变化)、删除节点等原创 2021-12-18 16:51:47 · 1488 阅读 · 0 评论 -
hadoop数据压缩及涉及的相关算法和(MapReduce)代码示例演示
hadoop数据压缩及涉及的相关算法和(MapReduce)代码示例演示查看hadoop有哪些压缩算法的命令[lqs@bdc112 hadoop-3.1.3]$ bin/hadoop checknative2021-12-15 16:20:12,345 INFO zlib.ZlibFactory: Successfully loadeNative library checking:hadoop: true /home/lqs/module/hadoop-3.1.3/lib/native/libh原创 2021-12-15 18:47:51 · 246 阅读 · 0 评论 -
hadoop MapReducer的join操作 类似数据库的join操作
Hadoop MapReducer部分的join操作,即将两张含有相同关键字段的表进行合并。原创 2021-12-14 19:15:57 · 804 阅读 · 0 评论 -
hadoop hdfs常用shell命令
仅供自己学习和大家参考查看帮助命令[lqs@bdc112 hadoop-3.1.3]$ bin/hadoop fsUsage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src> ...] [-checksum <src> ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] .原创 2021-12-10 13:46:34 · 1753 阅读 · 0 评论 -
oiv 查看 Fsimage 文件和oev 查看 Edits 文件
oiv 查看 Fsimage 文件1、进入目的路径[lqs@bdc112 current]$ cd /home/lqs/module/hadoop-3.1.3/data/dfs/name/current语法: hdfs oiv -p 文件类型 -i 镜像文件 -o 转换后文件输出路径2、使用命令进行转换[lqs@bdc112 current]$ hdfs oiv -p XML -i fsimage_0000000000000000330 -o /home/lqs/module/hadoo原创 2021-12-08 17:43:00 · 1279 阅读 · 0 评论 -
hadoop HDFS的文件夹创建、文件上传、文件下载、文件夹删除,文件更名、文件详细信息、文件类型判断(文件夹或者文件)
本篇文章主要介绍的是hadoop hdfs的基础api的使用。包括Windows端依赖配置,Maven依赖配置。最后就是进行实际的操作,包括:获取远程hadoop hdfs连接,并对其进行的一系列操作,包括;文件夹创建、文件上传、文件下载、文件(夹)删除、文件更名或移动、文件详细信息的获取并打印到控制台,以及文件类型的判断(文件夹或文件)并打印对应文件(夹)的详细信息。原创 2021-12-08 13:26:22 · 4556 阅读 · 5 评论 -
编辑VMware网络配置和Windows网络配置
编辑VMware网络配置和Windows网络配置详细教程,供后面搭建大数据开发平台使用原创 2021-12-06 15:55:35 · 1170 阅读 · 0 评论 -
Linux操作之多台服务器配置免密登录
[lqs@bdc114 ~]$ cd /home/lqs/.ssh/[lqs@bdc114 .ssh]$ ll总用量 4-rw-------. 1 lqs lqs 784 12月 5 19:26 authorized_keys[lqs@bdc114 .ssh]$ ssh-keygen -t rsaGenerating public/private rsa key pair.Enter file in which to save the key (/home/lqs/.ssh/id_rsa):原创 2021-12-06 09:01:13 · 1373 阅读 · 0 评论 -
详细简单的Linux yum仓库配置及修改Linux系统网络yum源
详细简单的Linux yum仓库配置及修改Linux系统网络yum源原创 2021-12-04 23:06:38 · 6990 阅读 · 7 评论 -
Linux常用基础操作命令
简介本篇博客是自己学习Linux shell命令做的笔记,供自己使用及给位大佬同行参考。帮助命令语法: man [命令或配置文件] (功能描述:获得帮助信息)[lqs@hadoop102 ~]$ man cd显示如下内容问见目录相关操作1、pwd 显示当前工作目录的绝对路径[lqs@hadoop102 module]$ pwd/home/lqs/module2、 ls 列出目录的内容语法 ls [选项] [目录或是文件][lqs@hadoop102 modul..原创 2021-12-04 22:35:04 · 1086 阅读 · 0 评论 -
Linux网络配置相关命令
简介本篇博客是自己学习Linux shell命令做的笔记,供自己使用及给位大佬同行参考。配置网络ip地址1、查看当前网络ip[lqs@hadoop102 kylin]$ ifconfig<br>2、ping 测试与主机之间网络的连通性[lqs@hadoop102 kylin]$ ping www.baidu.com3、查看IP配置文件[lqs@hadoop102 ~]$ vim /etc/sysconfig/network-scripts/ifcfg-ens33回..原创 2021-12-03 20:58:37 · 356 阅读 · 0 评论 -
Linux的vi/vim编辑器
Linux vi/vim编辑器相关操作详细详细,是自己学习所做的笔记,供自己使用和大家查看,不足之处请指出,谢谢!原创 2021-12-03 20:04:58 · 88 阅读 · 0 评论 -
Linux目录结构
Linux的目录文件结构详细简介笔记原创 2021-12-03 18:32:35 · 100 阅读 · 0 评论 -
比较详细的mysql的DDL、DML、DQL操作笔记总结
介绍:这是我们自己学习做的笔记,共以后自己及各位朋友同行使用,做的不好的地方请大家见谅!数据库基本操作mysql的数据类型数据库的DDL操作创建数据库查询:修改库删除库使用库数据库的表的DDL操作表创建插入数据查询表修改表删除表数据库表的 DML增删改添加数据删除数据修改数据数据库DQL查询表操作查询语句的语法基础查询条件查询排序查询常见函数函数的概念单行函数mysql的数据类型mysqlJavalengthExampleTINYINT(tinyint)byte1字节有符号原创 2021-12-02 14:23:02 · 994 阅读 · 0 评论 -
Maven比较全、比较详细maven操作、pom.xml文件配置笔记,适合干大数据开发的人(Windows,Linux)
简介:主要用于Windows和linux写相关插件时弄框架使用,基础的配置操作介绍,适合初学者和不喜欢被代码的人,本篇博客是自己整理的笔记,有不足的地方请多多指教!!!maven操作配置目录maven基础配置Maven的核心配置文件settings.xmlMaven的中央仓库配置Maven的指定编译jdk版本配置Maven打包的相关配置在pox.xml中配置支持依赖打包的代码段在pom.xml配置依赖排除统一管理目标Jar包的版本Maven的继承创建父工程在子工程中引用父工程在父工程中管理依赖Maven.原创 2021-12-02 00:08:59 · 711 阅读 · 0 评论