自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

sun

  • 博客(14)
  • 资源 (7)
  • 收藏
  • 关注

原创 Spark -12:spark checkpoint机制

一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太多,那么记录更新成本也不低。因此,RDD只支持粗粒度转换,即只记录单个块上执行的单个操作,然后将创建RD

2017-02-28 16:58:04 867

原创 (7)mapreduce 不执行reduce

reduce函数就是可选的,当不指定Reduce时候,系统会使用缺省的reduce函数(一般都没有什么操作) 不想要reduce就把其设置为NONE job.setNumReduceTasks(0);//设置个数为0 ; 也可以在mapred-site.xml下设置:<property> <name>mapred.reduce.tasks</name> <value>0</v

2017-02-28 14:41:26 4035

原创 缓存穿透、缓存击穿、缓存雪崩

缓存这种能够提升指令和数据读取速度的特性,随着本地计算机系统向分布式系统的扩展,在分布式计算领域中得到了广泛的应用,称为分布式缓存

2017-02-25 13:55:27 664

原创 二.kafka leader 负载均衡

每当代理停止或崩溃领导,该代理的分区传输到其他副本。这意味着默认情况下,当代理重新启动时,它将只是所有其分区的跟随者,这意味着它不会用于客户端读取和写入。为了避免这种不平衡,Kafka有一个优选副本的概念。如果分区的副本的列表为1,5,9,则节点1优选为节点5或9的引导者,因为它在副本列表中较早。您可以通过运行以下命令让Kafka集群尝试恢复恢复的副本的领导: > bin / kafka

2017-02-24 16:06:17 2825

原创 Spark -11:Spark Submit提交历史应用程序删除

/spark/work/目录下存放提交的任务程序定时删除,否则占用磁盘空间

2017-02-23 11:42:37 2696

原创 Spark -10:高可用模式配置

默认情况下,Standalone的Spark集群是Master-Slaves架构的集群模式,由一台master来调度资源,这就和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题呢?Spark提供了两种方案:基于文件系统的单点恢复(Single-Node Recovery with Local Filesystem)和基于zooke

2017-02-23 11:10:52 2277

原创 Spark -14:spark Hadoop 高可用模式下读写hdfs

第一种,通过配置文件  val sc = new SparkContext()    sc.hadoopConfiguration.set("fs.defaultFS", "hdfs://cluster1");    sc.hadoopConfiguration.set("dfs.nameservices", "cluster1");    sc.hadoopConfigurati

2017-02-22 16:37:48 4216

原创 Spark:Master High Availability(HA)高可用配置

Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:基于文件系统的单点恢复(Single-Node Recovery with Local File System)基于zookeeper的Standby Masters(Sta

2017-02-22 11:41:23 1860

原创 (6)Java 读写 hdfs文件或者目录

1.读取单个文件 Date date = DateUtil.getSpecifiedDayBefore(); String yesterday = DateUtil.dateToStr(date, "yyyy-MM-dd"); String path = "hdfs://ip:9000/output_log/output_log_click" + yesterday;

2017-02-09 10:53:31 4225

原创 (5)Hadoop 多文件输出

在MapClass或Reduce类中加入以下代码private MultipleOutputs mos;public void setup(Context context) throws Exception{  mos=new MultipleOutputs(context);}public void cleanup(Context context) throws Ex

2017-02-09 09:56:46 556

原创 Linux利用iptables开放指定端口的方法

使用iptables开放如下端口/sbin/iptables -I INPUT -p tcp --dport 8000 -j ACCEPT保存/etc/rc.d/init.d/iptables save重启服务service iptables restart查看需要打开的端口是否生效?/etc/init.d/iptables status

2017-02-08 12:31:26 10460

原创 (4)Hadoop 添加和删除数据节点

添加节点A:新节点中添加账户,设置无密码登陆B:Name节点中设置到新节点的无密码登陆C:在Name节点slaves文件中添加新节点D:在所有节点/etc/hosts文件中增加新节点(所有节点保持一致)E:在新节点中执行./bin/hadoop-daemon.sh start datanode ./bin/hadoop-daemon.sh start tasktracker 均衡个数据节点中的数

2017-02-04 16:34:17 2012

原创 (3)Hadoop HDFS 容量

HDFS 上每个数据节点最多能存储多少数据取决于节点的硬盘大小。对于单个节点来说,其存储的容量为磁盘容量减去hdfs-site.xml配置文件中dfs.datanode.du.reserved参数值。 dfs.datanode.du.reserved 900000000000 Reserved space in bytes per volume. Always leave this muc

2017-02-04 16:16:55 4606

原创 (2)Hadoop重新格式化HDFS的方法

1、查看hdfs-site.xml:property> name>dfs.name.dirname> value>/home/hadoop/hdfs/namevalue> description>namenode上存储hdfs名字空间元数据description> property> property> name>dfs.data.dirna

2017-02-04 16:08:50 1036

docker-install.rar

centos7 perl docker离线安装包rpm,好不容易网上搜集的

2019-11-06

perl-centos7.rar

centos7 perl 离线安装包rpm 大全,perl-5.16.3-294.el7_6.x86_64.rpm等,好不容易网上搜集的

2019-11-06

perl-centos6.rar

centos6 perl 离线安装包rpm 大全,perl-5.10.1-127.el6.x86_64.rpm等,好不容易网上搜集的

2019-11-06

Google三大论文_中文版

Google三大论文_中文版

2017-03-14

hive-jdbc-2.1.0-standalone.jar

hive-jdbc-2.1.0-standalone.jar

2017-01-22

spring-data-redis-1.6.0.RELEASE.jar

spring-data-redis-1.6.0.RELEASE.jar

2016-09-30

jedis-2.9.0.jar

jedis-2.9.0.jar

2016-09-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除