- 博客(7)
- 收藏
- 关注
原创 Kafka基础介绍和名词解释
kafka是一个高吞吐的分布式消息系统,底层使用消息队列机制。消息队列常用于系统之间解耦合、峰值压力缓冲、异步通信。kafka的消息队列保证自己不丢数据(kafka接收数据不经内存,直接通过“零拷贝”写入到文件),消费者不丢数据(至少一次,严格一次),kafka会记录消费者读取数据的“offset”位置。kafka的结构 producer:消息生产者 consumer:消息消费者 b...
2019-04-26 13:41:01 589
原创 Idea 缓存、索引
今天写spark项目时,由于要本地链接hive,所以把hive和hdfs的配置拷贝到项目的资源目录中。然后测试代码一直报“找不到hdfs ha集群名称”的错误(代码在集群中测试过没有问题),刚开始一直以为是本地链接不到hdfs,照着这个思路调试了半个小时仍没有解决。后来想到一个老程序员说过的程序员三大法宝“重启、关机、重装系统”,将idea关闭重新打开再次运行运行,这次居然成功了。 后来反...
2019-04-25 21:57:25 235
转载 hadoop yarn资源调度
yarn概述YARN 是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操 作系统平台,而 MapReduce 等运算程序则相当于运行于操作系统之上的应用程序YARN 是 Hadoop2.x 版本中的一个新特性。它的出现其实是为了解决第一代 MapReduce 编程 框架的不足,提高集群环境下的资源利用率,这些资源包括内存,磁盘,网络,IO等。Hadoop2.X 版本中重...
2019-04-25 21:21:06 338
原创 scala简介和基础使用(一)
Scala简介scala是一门面向对象和面向函数,基于“jvm”的一门语言,scala和java在很大一部分上很想,由spark源码中大量使用scala官网介绍的6个特征java和scala可以混编:都是编译后由jvm运行,scala中可以使用java的所有类包类型推测(自动推测类型):scala中声明类型使用“val(静态)”和“var(动态)”来声明,而后由scala自动推测变量的类型...
2019-04-15 19:42:31 189
原创 python基础使用(集合类型)
集合类型1.字符串:python中字符串就是字符数组,支持下标索引访问。如果想取出部分字符,可以通过下标的方法取得(python中下标从0开始)。 字符串支持切片(切片是指对操作的对象截取其中一部分的操作。字符串、列表、元组都支持切片操作)操作。操作语法如下:变量名[起始:结束:步长] 步长:表示下标变化的规律。即取出当前下标位置的值后跳过几个下标。可以使用负数,负数代表从后向前移动...
2019-04-12 15:46:50 174
原创 python基础使用篇(变量类型、运算符、条件判断和循环结构)
1.变量类型为了更充分的利用内存空间以及更有效率的管理内存,变量是有不同的类型object:python中所有类型的顶级对象numeric:数值类型数据sequence:类集合型类型(string为字符数组)mapping:kv键值对类型internal:内部类型数值类型、string类型和其他基本类型的基本介绍:整形:python中可以处理任意大小的整数,包括负整数。在程序中的...
2019-04-11 21:06:09 234
原创 Impala性能优化
Impala由于可以兼容部分hive sql语句,所以Impala的性能优化与hive的相差不多1.sql语句优化:可以通过"explain sql"或“profile”命令来查看sql语句的执行顺序和步骤2.选择合适的文件格式进行存储:文件格式的转换会缩小数据的大小,以减少磁盘IO和网络传送的IO。Impala对不同的数据格式有不同的支持。具体看下图3.避免产生过多的小文件(如果有其他程...
2019-04-10 19:23:44 652
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人