- 博客(14)
- 资源 (7)
- 收藏
- 关注
原创 Spark -12:spark checkpoint机制
一般来说,分布式数据集的容错性有两种方式:数据检查点和记录数据的更新。 面向大规模数据分析,数据检查点操作成本很高,需要通过数据中心的网络连接在机器之间复制庞大的数据集,而网络带宽往往比内存带宽低得多,同时还需要消耗更多的存储资源。 因此,Spark选择记录更新的方式。但是,如果更新粒度太细太多,那么记录更新成本也不低。因此,RDD只支持粗粒度转换,即只记录单个块上执行的单个操作,然后将创建RD
2017-02-28 16:58:04 867
原创 (7)mapreduce 不执行reduce
reduce函数就是可选的,当不指定Reduce时候,系统会使用缺省的reduce函数(一般都没有什么操作) 不想要reduce就把其设置为NONE job.setNumReduceTasks(0);//设置个数为0 ; 也可以在mapred-site.xml下设置:<property> <name>mapred.reduce.tasks</name> <value>0</v
2017-02-28 14:41:26 4035
原创 缓存穿透、缓存击穿、缓存雪崩
缓存这种能够提升指令和数据读取速度的特性,随着本地计算机系统向分布式系统的扩展,在分布式计算领域中得到了广泛的应用,称为分布式缓存
2017-02-25 13:55:27 664
原创 二.kafka leader 负载均衡
每当代理停止或崩溃领导,该代理的分区传输到其他副本。这意味着默认情况下,当代理重新启动时,它将只是所有其分区的跟随者,这意味着它不会用于客户端读取和写入。为了避免这种不平衡,Kafka有一个优选副本的概念。如果分区的副本的列表为1,5,9,则节点1优选为节点5或9的引导者,因为它在副本列表中较早。您可以通过运行以下命令让Kafka集群尝试恢复恢复的副本的领导: > bin / kafka
2017-02-24 16:06:17 2825
原创 Spark -10:高可用模式配置
默认情况下,Standalone的Spark集群是Master-Slaves架构的集群模式,由一台master来调度资源,这就和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题呢?Spark提供了两种方案:基于文件系统的单点恢复(Single-Node Recovery with Local Filesystem)和基于zooke
2017-02-23 11:10:52 2277
原创 Spark -14:spark Hadoop 高可用模式下读写hdfs
第一种,通过配置文件 val sc = new SparkContext() sc.hadoopConfiguration.set("fs.defaultFS", "hdfs://cluster1"); sc.hadoopConfiguration.set("dfs.nameservices", "cluster1"); sc.hadoopConfigurati
2017-02-22 16:37:48 4216
原创 Spark:Master High Availability(HA)高可用配置
Spark Standalone集群是Master-Slaves架构的集群模式,和大部分的Master-Slaves结构集群一样,存在着Master单点故障的问题。如何解决这个单点故障的问题,Spark提供了两种方案:基于文件系统的单点恢复(Single-Node Recovery with Local File System)基于zookeeper的Standby Masters(Sta
2017-02-22 11:41:23 1860
原创 (6)Java 读写 hdfs文件或者目录
1.读取单个文件 Date date = DateUtil.getSpecifiedDayBefore(); String yesterday = DateUtil.dateToStr(date, "yyyy-MM-dd"); String path = "hdfs://ip:9000/output_log/output_log_click" + yesterday;
2017-02-09 10:53:31 4225
原创 (5)Hadoop 多文件输出
在MapClass或Reduce类中加入以下代码private MultipleOutputs mos;public void setup(Context context) throws Exception{ mos=new MultipleOutputs(context);}public void cleanup(Context context) throws Ex
2017-02-09 09:56:46 556
原创 Linux利用iptables开放指定端口的方法
使用iptables开放如下端口/sbin/iptables -I INPUT -p tcp --dport 8000 -j ACCEPT保存/etc/rc.d/init.d/iptables save重启服务service iptables restart查看需要打开的端口是否生效?/etc/init.d/iptables status
2017-02-08 12:31:26 10460
原创 (4)Hadoop 添加和删除数据节点
添加节点A:新节点中添加账户,设置无密码登陆B:Name节点中设置到新节点的无密码登陆C:在Name节点slaves文件中添加新节点D:在所有节点/etc/hosts文件中增加新节点(所有节点保持一致)E:在新节点中执行./bin/hadoop-daemon.sh start datanode ./bin/hadoop-daemon.sh start tasktracker 均衡个数据节点中的数
2017-02-04 16:34:17 2012
原创 (3)Hadoop HDFS 容量
HDFS 上每个数据节点最多能存储多少数据取决于节点的硬盘大小。对于单个节点来说,其存储的容量为磁盘容量减去hdfs-site.xml配置文件中dfs.datanode.du.reserved参数值。 dfs.datanode.du.reserved 900000000000 Reserved space in bytes per volume. Always leave this muc
2017-02-04 16:16:55 4606
原创 (2)Hadoop重新格式化HDFS的方法
1、查看hdfs-site.xml:property> name>dfs.name.dirname> value>/home/hadoop/hdfs/namevalue> description>namenode上存储hdfs名字空间元数据description> property> property> name>dfs.data.dirna
2017-02-04 16:08:50 1036
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人