自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 数据中台与数据仓库

01 数据中台定义数据中台是一种将企业沉睡数据变成数据资产,持续使用数据,产生智能,为业务服务,从而实现数据价值变现的系统和机制。通过数据中台提供的方法和运行机制,形成汇聚整合,提纯加工,建模处理,算法学习,并以共享服务的方式将数据提供给业务使用,从而与业务联动。结合业务中台的数据生产能力,最终构建数据生产-消费-在生的闭环。为l更好的理解数据中台,我们将其与数据仓库,数据湖,BI。大数据等相关概念进行对比。1.与数据仓库对比数据仓库是一个面向主题,集成的,相对稳定的,反应历史变化的数据集合,用于支

2020-10-29 10:37:05 555

原创 rsync daemon模式

=实测=1.daemon模式yum -y install rsync xinetd#rsync_config_____________________________start#created by oldboy 15:01 2007-6-5##rsyncd.conf start##uid = rsyncgid = rsyncuse chroot = nomax connections = 200timeout = 300pid file = /var/run/rsyncd.pidl

2020-10-23 09:56:32 503

原创 Java之封装,继承,多态

一,前言​ 今天总结一下关于Java的三大特性,封装,继承,多态。其实关于三大特性对于从事编程人员来说都是基本的了,毕竟只要接触Java这些都是先要认识的,接下来就系统总结一下。二,封装​ 先来说说特性之一:封装2.1,什么是封装​ 封装(Encapsulation)是面向对象方法的重要原则,就是把对象的属性和操作(或服务)结合为一个独立的整体,并尽可能隐藏对象的内部实现细节。将类的某些信息隐藏在类的内部,不允许外部程序进行直接的访问调用。通过该类提供的方法来实现对隐藏信息的操作和访问。隐藏

2020-10-13 11:36:56 257 1

原创 BitMap算法

海量数据处理-BitMap算法一、概述本文将讲述Bit-Map算法的相关原理,Bit-Map算法的一些利用场景,例如BitMap解决海量数据寻找重复、判断个别元素是否在海量数据当中等问题.最后说说BitMap的特点已经在各个场景的使用性。二、Bit-Map算法先看看这样的一个场景:给一台普通PC,2G内存,要求处理一个包含40亿个不重复并且没有排过序的无符号的int整数,给出一个整数,问如果快速地判断这个整数是否在文件40亿个数据当中?问题思考:40亿个int占(40亿4)/1024/1024/

2020-10-13 10:39:19 705

原创 HBase 的读写过程

Hbase读写流程一、hbase的读操作:  ZooKeeper—meta–regionserver–region–memstore–storefile  1、首先从zookerper找到meta表的region的位置,然后读取meta表中的数据。而meta中又存储了用户表的region信息  2、根据namespace、表名和rowkey根据meta表中的数据找到写入数据对于的region信息  3、然后找到对于的regionserver  4、查找对应的region  5、先从Memsto

2020-10-12 18:10:01 1581

原创 RDD 中的 reducebyKey 与 groupByKey 哪个性能高?

groupByKeyval counts = pairs.groupByKey().map(wordCounts => (wordCounts._1, wordCounts._2.sum))groupByKey的性能,相对来说,是有问题的因为,它是不会进行本地聚合的,而是原封不动的,把ShuffleMapTask的输出,拉取到ResultTask的内存中,所以这样的话,会导致,所有的数据,都要进行网络传输,从而导致网络传输的性能开销很大但是,有些场景下,用其他算法实现不了的,比如reduce

2020-10-12 17:27:19 1127

原创 hadoop 的 shuffle 过程

hadoop 的 shuffle 过程huffle过程是MapReduce的核心,也被称为奇迹发生的地方。要想理解MapReduce, Shuffle是必须要了解的。我看过很多相关的资料,但每次看完都云里雾里的绕着,很难理清大致的逻辑,反而越搅越混。前段时间在做MapReduce job 性能调优的工作,需要深入代码研究MapReduce的运行机制,这才对Shuffle探了个究竟。考虑到之前我在看相关资料而看不懂时很恼火,所以在这里我尽最大的可能试着把Shuffle说清楚,让每一位想了解它原理的朋友都能有

2020-10-12 17:21:27 542

原创 hadoop 的组件有哪些?Yarn的调度器有哪些?

hadoop 的组件有哪些common、HDFS、MapReduce、YARNcommon(工具类):包括Hadoop常用的工具类,由原来的Hadoopcore部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API。Hadoop Distributed File System(HDFS)Hadoop实现了一个分布式的文

2020-10-12 16:39:42 480

原创 Java的内存溢出和内存泄漏

内存溢出(Out Of Memory—OOM)是指系统已经不能再分配出你所需要的空间,比如你需要100M的空间,系统只剩90M了,这就叫内存溢出。内存溢出的常见原因:1、内存中加载的数据量过于庞大,如一次从数据库取出过多数据;2、集合类中有对对象的引用,使用完后未清空,使得JVM不能回收;3、代码中存在死循环或循环产生过多重复的对象实体;4、使用的第三方软件中的BUG;5、启动参数内存值设定的过小常见的解决方法:1、修改JVM启动参数,直接增加内存。(-Xms,-Xmx参数一定不要忘记加。

2020-10-12 16:22:44 128

原创 Java的三种代理模式

Java的三种代理模式1.代理模式代理(Proxy)是一种设计模式,提供了对目标对象另外的访问方式;即通过代理对象访问目标对象.这样做的好处是:可以在目标对象实现的基础上,增强额外的功能操作,即扩展目标对象的功能.这里使用到编程中的一个思想:不要随意去修改别人已经写好的代码或者方法,如果需改修改,可以通过代理的方式来扩展该方法举个例子来说明代理的作用:假设我们想邀请一位明星,那么并不是直接连接明星,而是联系明星的经纪人,来达到同样的目的.明星就是一个目标对象,他只要负责活动中的节目,而其他琐碎的事情

2020-10-12 16:15:16 85

原创 spark相关优化

标题 spark开发调优1.高性能序列化类库在Spark中,默认是使用Java自带的序列化机制——基于ObjectInputStream和ObjectOutputStream的序列化机制,这是为了提高便捷性和适用性,毕竟是Java原生的嘛。然鹅,自带的东西往往考虑的东西比较多,没法做到样样俱全,比如内序列化后占据的内存还是较大,但是Spark是基于内存的大数据框架,对内存的要求很高。所以,在Spark应用程序中,Java自带的序列化库的效率有点差强人意。需求是从实际出发的嘛,最终Spark也提供了另外一

2020-10-12 14:37:46 176

原创 在spark中采用sc.hadoopConfiguration进行数据传输java.lang.IllegalArgumentException: Can not create a Path from

在spark中采用sc.hadoopConfiguration进行数据传输java.lang.IllegalArgumentException: Can not create a Path from a null stringscala 2.11spark 2.20这是spark自身一些bughttps://issues.apache.org/jira/browse/SPARK-21549如何解决:spark2.2源码def rddWriteToHbase(tableName:Strin

2020-09-30 13:51:29 833

转载 Linux RedHat6.5 安装yum源

实现原理: 首先来了解一下为什么Redhat中yum指令没有,这是因为Redhat中yum是需要用户注册的,并不是对所有人开放的,所以我们需要把centos中开放的yum来替换Redhat中的yum。代码实现:1.删除本地的yum$ su//这是获取root权限,成功后$会变成#rpm -qa |grep yum //查询本地的yumrpm -qa |grep yum|...

2020-02-09 22:22:12 858 1

原创 scala编译常见错误

1.问题描述:在scala2.10到2.11升级的过程中遇到编译错误Error:scalac: bad option: ‘-make:transitive’于是修改删除其中的 ‘-make:transitive’重启idea可以解决但是每次进pom文件的更新的时候都要进行删除上述文件并重新启动过于繁琐并且在使用maven打包编译的过程中出现Failed to execute goal...

2019-12-06 10:44:19 1706

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除