![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据学习
文章平均质量分 95
记录大数据组件及框架学习内容
Whacky-u
这个作者很懒,什么都没留下…
展开
-
python超详细知识点汇总整理
放进函数中去,应该在列表名字前面加上号,比如a(*list)形式参数名字:这次不是放在元组了,是放在字典里python在定义全局变量的时候,这个变量只要在函数外面定义的,就是全局变量,在函数体中也可以访问到当局部变量(函数体内定义的变量)和全局变量重名时候,对函数体的变量进行赋值后,不影响函数体的变量在函数体内变量用global关键字修饰后,该变量也变成了为全局变量。原创 2024-03-29 14:45:02 · 1939 阅读 · 0 评论 -
Spark基础必会知识总结
RDD是弹性分布式数据集存储弹性:内存磁盘一起用计算弹性:重试机制分片弹性:分区可以改变容错弹性:可以基于血缘关系,也就是上一个RDD重新进行计算,恢复当前RDD的数据reduceByKey:有预聚合、重分区,聚合计算groupByKey:没有预聚合,重分区但是不计算血缘说的就是宽依赖和窄依赖。有shuffle的是宽依赖宽依赖:父RDD 的一个分区的数据会被子 RDD 的多个分区依赖,涉及到 Shuffle窄依赖:父RDD 的一个分区的数据只会被子 RDD 的一个分区依赖窄依赖的多个分区可以并行计算;宽依赖原创 2024-03-27 14:58:24 · 685 阅读 · 0 评论 -
JAVA学习笔记
java是混合型:编译+解释型,先java文件编译成class文件,而且不是直接运行在操作系统里面,而是运行在虚拟机里面的,只要针对不同的操作系统给出不同的虚拟机(jvm)就行jvm虚拟机核心类库开发工具:javac编译工具,Java运行工具,jdb调试工具,jhat内存分析工具…jvm虚拟机核心类库运行工具:这里是运行不是开发,jdk是开发的,就是已经有class,直接运行就行,不需要编写代码的时候匿名内部类:是内部类的简化写法。他是一个隐含了名字的内部类。原创 2024-03-07 09:29:32 · 939 阅读 · 1 评论 -
Kafka总结文档
/主要见讲义第21-23页1、定义类实现 Partitioner 接口。2、重写 partition()方法。代码中实际完成的就是重写partition方法中的几个步骤:获取消息,将参数的value值变成tostring然后根据需求,去分析value,然后返回不同情况返回不同的partition值最后将这个类的全类名,放在生产者的代码中,添加一个参数// 添加自定义分区器。原创 2024-03-11 13:17:35 · 1472 阅读 · 2 评论 -
Hadoop汇总
(1)默认使用的实现类是:TextInputFormat(2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。(3)CombineTextInputFormat可以把多个小文件合并成一个切片处理,提高处理效率。// 1. 创建配置文件// 2. 判断是否有tool接口//这里是判断集群中的命令行第一个参数是什么,如果是yarn命令, //就执行上面定义的方法break;原创 2024-03-08 11:11:48 · 1227 阅读 · 1 评论 -
Linux笔记
也有简单一些的方法,就是借助工具 通常在工作过程中,公司中使用的真实服务器或者是云服务器,都不允许除运维人员之外的员工直接接触,因此就需要通过远程登录的方式来操作。所以,远程登录工具就是必不可缺的,目前,比较主流的有 Xshell, SSH Secure Shell, SecureCRT,FinalShell 等,同学们可以根据自己的习惯自行选择.然后配置里面的用户身份,就是虚拟机的用户名和密码想断开连接就直接点击上面创建按钮旁边的断开连接。原创 2024-03-06 09:28:56 · 1407 阅读 · 1 评论 -
Hive企业级调优
计算资源调优就是yarn资源的配置,和mapreduce的资源配置,分给多少内存,核数之类的一个sql语句翻译成几个mapreduce ,map和reduce分别干了什么,就是执行计划讲解的这个是通过在select语句最外面加上explain关键字,就会显示出来详细的执行计划而执行计划是由一系列的stage,就是一页一页的构成,每一个stage对应一个mapreduce job 或者一个文件操作系统,比如load之类的0- 补充一个可视化执行计划方法在hive文件夹中有一个压缩包名为dist,是可以原创 2024-03-13 09:28:18 · 1396 阅读 · 0 评论 -
Zookeeper笔记
/ 主要见讲义的前4页 主要是:统一命名服务、统一配置管理、统一集群管理、服务器动态上下线、软负载均衡。原创 2024-03-09 15:28:09 · 1033 阅读 · 1 评论 -
最详Hive入门指南
基于Hadoop的⼀个数据仓库⼯具,可以将结构化的数据⽂件映射 为⼀张表,并提供类SQL查询功能。本质就是一个hadoop的客户端,将HIve SQL转化成MapReduce程序如果不指定地址,那么就是默认地址下的自己构建的表名字,在此默认路径下创建了这么一个表的目录然后我们只要和表中对应数据格式一样的数据传到hdfs下的表目录下,就可以将数据存储到表中了。原创 2024-03-12 09:47:13 · 1538 阅读 · 1 评论 -
Flume总结文档
自定义拦截器,在工作中会用到的比较多,比自定义source和自定义sink用的要多因为基本数据的类型已经定义的比较全面了主要是根据业务逻辑对数据进行处理,就是拦截器Interceptor的作用了// 主要是在讲义的第26-30页多路复用Multiplexing会用到拦截器,就是在channel选择器中告诉这个机器哪些数据应该发往哪些channel其实就是对event的头信息和body信息进行修改和处理其实主要涉及四个方法和最后的builder构建。原创 2024-03-10 09:28:20 · 962 阅读 · 1 评论