2017年02月_GE12

12月 10月 07月 06月 05月 04月 03月 02月 01月

原创 Spark -12：spark checkpoint机制

一般来说，分布式数据集的容错性有两种方式：数据检查点和记录数据的更新。面向大规模数据分析，数据检查点操作成本很高，需要通过数据中心的网络连接在机器之间复制庞大的数据集，而网络带宽往往比内存带宽低得多，同时还需要消耗更多的存储资源。因此，Spark选择记录更新的方式。但是，如果更新粒度太细太多，那么记录更新成本也不低。因此，RDD只支持粗粒度转换，即只记录单个块上执行的单个操作，然后将创建RD

2017-02-28 16:58:04 867

原创 (7)mapreduce 不执行reduce

reduce函数就是可选的，当不指定Reduce时候，系统会使用缺省的reduce函数（一般都没有什么操作）不想要reduce就把其设置为NONE job.setNumReduceTasks(0);//设置个数为0 ；也可以在mapred-site.xml下设置：<property> <name>mapred.reduce.tasks</name> <value>0</v

2017-02-28 14:41:26 4035

原创缓存穿透、缓存击穿、缓存雪崩

缓存这种能够提升指令和数据读取速度的特性，随着本地计算机系统向分布式系统的扩展，在分布式计算领域中得到了广泛的应用，称为分布式缓存

2017-02-25 13:55:27 664

原创二.kafka leader 负载均衡

每当代理停止或崩溃领导，该代理的分区传输到其他副本。这意味着默认情况下，当代理重新启动时，它将只是所有其分区的跟随者，这意味着它不会用于客户端读取和写入。为了避免这种不平衡，Kafka有一个优选副本的概念。如果分区的副本的列表为1,5,9，则节点1优选为节点5或9的引导者，因为它在副本列表中较早。您可以通过运行以下命令让Kafka集群尝试恢复恢复的副本的领导： > bin / kafka

2017-02-24 16:06:17 2825

原创 Spark -11：Spark Submit提交历史应用程序删除

/spark/work/目录下存放提交的任务程序定时删除，否则占用磁盘空间

2017-02-23 11:42:37 2696

原创 Spark -10：高可用模式配置

默认情况下，Standalone的Spark集群是Master-Slaves架构的集群模式，由一台master来调度资源，这就和大部分的Master-Slaves结构集群一样，存在着Master单点故障的问题。如何解决这个单点故障的问题呢？Spark提供了两种方案：基于文件系统的单点恢复(Single-Node Recovery with Local Filesystem)和基于zooke

2017-02-23 11:10:52 2277

原创 Spark -14：spark Hadoop 高可用模式下读写hdfs

第一种，通过配置文件 val sc = new SparkContext() sc.hadoopConfiguration.set("fs.defaultFS", "hdfs://cluster1"); sc.hadoopConfiguration.set("dfs.nameservices", "cluster1"); sc.hadoopConfigurati

2017-02-22 16:37:48 4216

原创 Spark:Master High Availability（HA）高可用配置

Spark Standalone集群是Master-Slaves架构的集群模式，和大部分的Master-Slaves结构集群一样，存在着Master单点故障的问题。如何解决这个单点故障的问题，Spark提供了两种方案：基于文件系统的单点恢复(Single-Node Recovery with Local File System)基于zookeeper的Standby Masters(Sta

2017-02-22 11:41:23 1860

原创 (6)Java 读写 hdfs文件或者目录

1.读取单个文件 Date date = DateUtil.getSpecifiedDayBefore(); String yesterday = DateUtil.dateToStr(date, "yyyy-MM-dd"); String path = "hdfs://ip:9000/output_log/output_log_click" + yesterday;

2017-02-09 10:53:31 4225

原创 (5)Hadoop 多文件输出

在MapClass或Reduce类中加入以下代码private MultipleOutputs mos;public void setup(Context context) throws Exception{ mos=new MultipleOutputs(context);}public void cleanup(Context context) throws Ex

2017-02-09 09:56:46 556

原创 Linux利用iptables开放指定端口的方法

使用iptables开放如下端口/sbin/iptables -I INPUT -p tcp --dport 8000 -j ACCEPT保存/etc/rc.d/init.d/iptables save重启服务service iptables restart查看需要打开的端口是否生效？/etc/init.d/iptables status

2017-02-08 12:31:26 10460

原创 (4)Hadoop 添加和删除数据节点

添加节点A：新节点中添加账户，设置无密码登陆B：Name节点中设置到新节点的无密码登陆C：在Name节点slaves文件中添加新节点D：在所有节点/etc/hosts文件中增加新节点（所有节点保持一致）E：在新节点中执行./bin/hadoop-daemon.sh start datanode ./bin/hadoop-daemon.sh start tasktracker 均衡个数据节点中的数

2017-02-04 16:34:17 2012

原创 (3)Hadoop HDFS 容量

HDFS 上每个数据节点最多能存储多少数据取决于节点的硬盘大小。对于单个节点来说，其存储的容量为磁盘容量减去hdfs-site.xml配置文件中dfs.datanode.du.reserved参数值。 dfs.datanode.du.reserved 900000000000 Reserved space in bytes per volume. Always leave this muc

2017-02-04 16:16:55 4606

原创 (2)Hadoop重新格式化HDFS的方法

1、查看hdfs-site.xml：property> name>dfs.name.dirname> value>/home/hadoop/hdfs/namevalue> description>namenode上存储hdfs名字空间元数据description> property> property> name>dfs.data.dirna

2017-02-04 16:08:50 1036