自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

没有合适的昵称

求知若饥,虚心若愚

  • 博客(6)
  • 资源 (2)
  • 问答 (1)
  • 收藏
  • 关注

原创 大数据各组件理论性总结---spark和hadoop(将持续更新)

Hadoop和spark的起源Hadoop起源1998年9月4日,Google公司在美国硅谷成立。正如大家所知,它是一家做搜索引擎起家的公司无独有偶,一位名叫Doug Cutting的美国工程师,也迷上了搜索引擎。他做了一个用于文本搜索的函数库(姑且理解为软件的功能组件),命名为LuceneLucene是用JAVA写成的,目标是为各种中小型应用软件加入全文检索功能。因为好用而且开源(代码公...

2020-05-05 14:38:53 2833

原创 spark RDD相关总结(一)

Value类型map(func)案例作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成需求:创建一个1-10数组的RDD,将所有元素2形成新的RDD(1)创建scala> var source = sc.parallelize(1 to 10)source: org.apache.spark.rdd.RDD[Int] = ParallelCollec...

2020-05-04 19:25:02 1600

原创 磁盘阵列(RAID)

前言到目前为止在同一个文件中读写数据的时候都是访问一块磁盘,那么如果这个磁盘坏了的话,那么数据将丢失了,这时候就可以使用 RAID 的技术来解决这个问题。RAID 翻译成中文就叫做磁盘阵列,我们通过把多块硬盘做一个组合使用,从而提高磁盘的读写性能或者提高数据的高可用性等,常见的 RAID 级别包括:1.RAID 02.RAID 13.RAID 54.RAID 10下面分别来讲解每一个...

2020-05-04 16:05:56 1945

原创 Centos 7 磁盘分区和挂载

查看磁盘管理我们来看下 Centos 7 的磁盘管理,说到磁盘管理,我们第一件感兴趣的是我的服务器现在有多少块磁盘呢?我们可以通过 vmware 中虚拟机的设置来查看:从上可以看出,目前这个虚拟机只有一块磁盘,磁盘的大小是 20G 。我们也可以通过下面的命令来查看磁盘的信息:fdisk -l输出如下的信息:我们看到上面的信息肯定很懵,感觉存在好几块磁盘似的,这到底是怎么回事呢?...

2020-05-04 15:52:42 1634 3

原创 hive join优化点(持续更新)

left semi join 代替 IN 字句的select m.* from 大表1 m where m.ID in (select l.ID from 小表2 l); -- 性能非常差,使用left semi join代替select m.* from 大表1 m left semi join 小表2 l on m.ID = l.ID limit 10;--但是 小表2 中的字段不...

2020-05-04 11:30:24 1589

原创 生产上的NameNode堆内存估算

NameNode堆内存估算在HDFS中,数据和元数据是分开存储的,数据文件被分割成若干个数据块,每一个数据块默认备份3份,然后分布式的存储在所有的DataNode上,元数据会常驻在NameNode的内存中,而且随着数据量的增加,在NameNode中内存的元数据的大小也会随着增加,那么这个时候对NameNode的内存的估算就变的非常的重要了。这里说的内存就是指NameNode所在JVM的堆内存...

2020-05-01 19:34:39 1682

CDH5.14安装文档(包含spark2和kafka的安装)

CDH5.14安装文档(包含spark2和kafka的安装)

2021-03-30

CDH6.2安装文档.doc

CDH6.2.0安装详细文档,博主一步步实验过的,不足之处还望各位前辈同行指正,谢谢

2019-10-07

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除