[置顶] YARN和MapReduce的内存设置参考

如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如CPU密集、IO密集还是网络密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。完成这一任务有两种方式,确定YARN和MapReduce的内存设置,我们可以使用HDP工具脚本进行内存配置设定运行hdp-configuration-utils.py 这个Python脚本...
阅读(3308) 评论(1)

[置顶] Spark实战

01.Spark简介(Spark VS MapReduce) 02.Spark生态系统 03.Scala集合简介 04.spark的关键组件 05.核心概念:弹性分布式数据集 06.RDD的操作(转换(transformation)动作(actions)) 07.RDD依赖 08.Wordcount例子 09. 提交job 10.编程接口 11.Spark运行架构 12.Spark SQL 13.SparkStreaming 14.练习题 15.延伸...
阅读(26331) 评论(8)

[置顶] HBase并行写机制(mvcc)

HBase并行写机制 参考:https://blogs.apache.org/hbase/tags/mvcc...
阅读(37793) 评论(1)

[置顶] hbase的Region分裂代码分析

region分裂有2种触发情景:1是用户手动触发(参见HRegionServer的splitRegion方法),2是后台flush线程flush完一个region的memstore时,会去检查这个region是否需要分裂(参见MemStoreFlushe的flushRegion方法)。这两种实现并无多大差异。转载请注明出处:http://blog.csdn.net/odailidong/article/details/42217439...
阅读(6498) 评论(1)

[置顶] zookeeper源码分析之leader选举

zookeeper默认选举算法为FastLeaderElection.java,其主要方法为FastLeaderElection.lookForLeader,选举的结果保存在类Vote中源码分析LOOKING 转载请注明原文链接:http://blog.csdn.net/odailidong/article/details/41855613...
阅读(34620) 评论(0)

[置顶] Hbase万亿级存储性能优化总结

转载请注明原文链接:http://blog.csdn.net/odailidong/article/details/41794403 一、服务端调优  1、参数配置    1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。...
阅读(6212) 评论(7)

[置顶] Apache Flume - File通道设计

原文链接:https://blogs.apache.org/flume/entry/apache_flume_filechannel 说明:翻译在尽量符合原文表达的基础上,尽量保证行文流畅。水平有限,请多指正! 这篇文章是关于Flume FileChannel的。Flume是为高效收集聚合大量日志数据设计的可靠的、可用的分布式系统。它有一个基于流式数据流的简单灵活的体系。它提供了可控的...
阅读(39695) 评论(2)

mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式)

首先将ids_app_installed_top_1000_3_ratio_wrap_m_top5000W.txt放入到数据库数据目录/var/local/mysql/data/${db_name}/ 下,并确保导入用户拥有这个txt文件的权限,否则会报Error 13错误1.${table_name}换myisam,我们的场景对事务没啥要求2.导入前修改参数和禁止索引更新mysql> SET S...
阅读(45) 评论(0)

centos禁用ipv6

两步完成vi /etc/sysctl.conf net.ipv6.conf.all.disable_ipv6=1sysctl -p /etc/sysctl.conf...
阅读(51) 评论(0)

App统计指标定义

活跃用户 新增用户 累计用户 DAU/MAU 启动次数 日均启动次数 人均启动次数 单次使用时长(min) 人均使用时长(min) 留存用户 N日留存率(%) 访问人数 访问人数占比(%) 访问次数 访问次数占比(%) 单次访问时长(min) 人均访问时长(min) 跳出率(%) 平均安装的应用 平均打开的应用 关联强度...
阅读(102) 评论(0)

Redis3未授权访问漏洞导致服务器被入侵

Redis未授权访问漏洞...
阅读(607) 评论(0)

赏心悦目风景二

赏心悦目风景...
阅读(101) 评论(0)

开源数据库中间件对比

本文比较了360(Atlas)、美团点评(DBProxy)、Kingshard、携程(DAL)、蘑菇街(TSharding)、阿里(TDDL)、当当(Sharding-JDBC 360)、MyCAT 共8种当下流行的开源数据库中间件,从总体来看mycat占据优势...
阅读(715) 评论(0)

深入了解volatile

volatile关键字经常在并发编程中使用,其特性是保证可见性以及有序性,但是关于volatile的使用仍然要小心,这需要明白volatile关键字的特性及实现的原理,这也是本篇文章的主要内容一、Java内存模型想要理解volatile为什么能确保可见性,就要先理解Java中的内存模型是什么样的。Java内存模型规定了所有的变量都存储在主内存中。每条线程中还有自己的工作内存,线程的工作内存中保存了...
阅读(202) 评论(0)

dfs.datanode.du.reserved 预留空间不生效的问题

dfs.datanode.du.reserved 预留空间不生效的问题...
阅读(223) 评论(0)

Apache Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念...
阅读(311) 评论(0)

kafka彻底删除topic

今天发现一个线上kafka(版本为0.8.2.2)多天前已不再消费的topic标记为删除(marked for deletion),而我们每天有定时删除topic的shell脚本,会把无用的topic干掉,但发现这些topic只是被标记为删除,而并没有真正删除...
阅读(412) 评论(0)

配置ntpd时钟同步服务

ntpd时钟同步服务目录参考:CentOS配置时间同步NTP: http://www.crsay.com/wiki/wiki.php/server/centos/ntp-set解决ntp的错误 no server suitable for synchronization found: http://www.blogjava.net/spray/archive/2008/07/10/213964.h...
阅读(233) 评论(0)

Ambari和ClouderaManager主要不同对比

Ambari和ClouderaManager主要的不同对比 打算对新建的hadoop集群使用管理工具,列了以下主要的不同点: 主要的不同点 apache Ambari ClouderaManager Express(免费版) 配置版本控制和历史记录 支持 不支持 二次开发 支持 不支持 集成 支持 no (不支持redis、kylin、es) 维护...
阅读(610) 评论(0)

python使用snappy压缩

今天在网上找了很久,终于找到1个snappy压缩命令行,记录下来:1.wget https://bootstrap.pypa.io/get-pip.py2.python ./get-pip.py 3.yum install gcc-c++4.pip install python-snappy用法:python -m snappy -c uncompressed_file compressed_f...
阅读(453) 评论(0)

Hadoop YARN 的工作流程简述

1、Client 向 YARN 提交应用程序,其中包括 ApplicationMaster 程序及启动 ApplicationMaster 的命令2、ResourceManager 为该 ApplicationMaster 分配第一个 Container,并与对应的 NodeManager 通信,要求它在这个 Container 中启动应用程序的 ApplicationMaster3、Applic...
阅读(240) 评论(0)

修改ranger ui的admin用户登录密码踩坑小记

修改的ranger ui的admin用户登录密码时,需要在ranger的配置里把admin_password改成一样的,否则hdfs的namenode在使用admin时启动不起来,异常如下:Traceback (most recent call last): ambari_ranger_admin, ambari_ranger_password = self.create_ambari_admin_user(ambari_ranger_admin, ambari_ranger_password, f...
阅读(876) 评论(0)
186条 共13页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:439907次
    • 积分:4808
    • 等级:
    • 排名:第5802名
    • 原创:117篇
    • 转载:70篇
    • 译文:2篇
    • 评论:43条
    最新评论