[置顶] 2017易观OLAP算法大赛报名正式启动!

【大赛背景】目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。在这个研发过程中,有个比较核心的需求,叫做“有序漏斗”。“有序漏斗”问题定义比较简单,但计算过程比较复杂。市面上现有的解决方案在数据量较大的情况下,计算效率较低。为了更好地提升...
阅读(444) 评论(0)

[置顶] YARN和MapReduce的内存设置参考

如何确定Yarn中容器Container,Mapreduce相关参数的内存设置,对于初始集群,由于不知道集群的类型(如CPU密集、IO密集还是网络密集)我们需要根据经验提供给我们一个参考配置值,来作为基础的配置。完成这一任务有两种方式,确定YARN和MapReduce的内存设置,我们可以使用HDP工具脚本进行内存配置设定运行hdp-configuration-utils.py 这个Python脚本...
阅读(3546) 评论(1)

[置顶] Spark实战

01.Spark简介(Spark VS MapReduce) 02.Spark生态系统 03.Scala集合简介 04.spark的关键组件 05.核心概念:弹性分布式数据集 06.RDD的操作(转换(transformation)动作(actions)) 07.RDD依赖 08.Wordcount例子 09. 提交job 10.编程接口 11.Spark运行架构 12.Spark SQL 13.SparkStreaming 14.练习题 15.延伸...
阅读(26518) 评论(8)

[置顶] HBase并行写机制(mvcc)

HBase并行写机制 参考:https://blogs.apache.org/hbase/tags/mvcc...
阅读(38003) 评论(1)

[置顶] hbase的Region分裂代码分析

region分裂有2种触发情景:1是用户手动触发(参见HRegionServer的splitRegion方法),2是后台flush线程flush完一个region的memstore时,会去检查这个region是否需要分裂(参见MemStoreFlushe的flushRegion方法)。这两种实现并无多大差异。转载请注明出处:http://blog.csdn.net/odailidong/article/details/42217439...
阅读(6593) 评论(1)

[置顶] zookeeper源码分析之leader选举

zookeeper默认选举算法为FastLeaderElection.java,其主要方法为FastLeaderElection.lookForLeader,选举的结果保存在类Vote中源码分析LOOKING 转载请注明原文链接:http://blog.csdn.net/odailidong/article/details/41855613...
阅读(34714) 评论(0)

[置顶] Hbase万亿级存储性能优化总结

转载请注明原文链接:http://blog.csdn.net/odailidong/article/details/41794403 一、服务端调优  1、参数配置    1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。...
阅读(6585) 评论(9)

[置顶] Apache Flume - File通道设计

原文链接:https://blogs.apache.org/flume/entry/apache_flume_filechannel 说明:翻译在尽量符合原文表达的基础上,尽量保证行文流畅。水平有限,请多指正! 这篇文章是关于Flume FileChannel的。Flume是为高效收集聚合大量日志数据设计的可靠的、可用的分布式系统。它有一个基于流式数据流的简单灵活的体系。它提供了可控的...
阅读(39759) 评论(2)

2017易观OLAP算法大赛

2017易观OLAP算法大赛 大赛简介 目前互联网领域有很多公司都在做APP领域的“用户行为分析”产品,与Web时代的行为分析相类似,其目的都是帮助公司的运营、产品等部门更好地优化自家产品,比如查看日活和月活,查看渠道来源,提高留存、转化、活跃度等等。 在这个研发过程中,有个...
阅读(183) 评论(0)

mysql快速导入5000万条数据过程记录(LOAD DATA INFILE方式)

首先将ids_app_installed_top_1000_3_ratio_wrap_m_top5000W.txt放入到数据库数据目录/var/local/mysql/data/${db_name}/ 下,并确保导入用户拥有这个txt文件的权限,否则会报Error 13错误1.${table_name}换myisam,我们的场景对事务没啥要求2.导入前修改参数和禁止索引更新mysql> SET S...
阅读(146) 评论(0)

centos禁用ipv6

两步完成vi /etc/sysctl.conf net.ipv6.conf.all.disable_ipv6=1sysctl -p /etc/sysctl.conf...
阅读(84) 评论(0)

App统计指标定义

活跃用户 新增用户 累计用户 DAU/MAU 启动次数 日均启动次数 人均启动次数 单次使用时长(min) 人均使用时长(min) 留存用户 N日留存率(%) 访问人数 访问人数占比(%) 访问次数 访问次数占比(%) 单次访问时长(min) 人均访问时长(min) 跳出率(%) 平均安装的应用 平均打开的应用 关联强度...
阅读(162) 评论(0)

Redis3未授权访问漏洞导致服务器被入侵

Redis未授权访问漏洞...
阅读(1074) 评论(0)

赏心悦目风景二

赏心悦目风景...
阅读(155) 评论(0)

开源数据库中间件对比

本文比较了360(Atlas)、美团点评(DBProxy)、Kingshard、携程(DAL)、蘑菇街(TSharding)、阿里(TDDL)、当当(Sharding-JDBC 360)、MyCAT 共8种当下流行的开源数据库中间件,从总体来看mycat占据优势...
阅读(1107) 评论(0)

深入了解volatile

volatile关键字经常在并发编程中使用,其特性是保证可见性以及有序性,但是关于volatile的使用仍然要小心,这需要明白volatile关键字的特性及实现的原理,这也是本篇文章的主要内容一、Java内存模型想要理解volatile为什么能确保可见性,就要先理解Java中的内存模型是什么样的。Java内存模型规定了所有的变量都存储在主内存中。每条线程中还有自己的工作内存,线程的工作内存中保存了...
阅读(231) 评论(0)

dfs.datanode.du.reserved 预留空间不生效的问题

dfs.datanode.du.reserved 预留空间不生效的问题...
阅读(349) 评论(0)

Apache Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shuffle、JVM 等相关概念...
阅读(406) 评论(0)

kafka彻底删除topic

今天发现一个线上kafka(版本为0.8.2.2)多天前已不再消费的topic标记为删除(marked for deletion),而我们每天有定时删除topic的shell脚本,会把无用的topic干掉,但发现这些topic只是被标记为删除,而并没有真正删除...
阅读(587) 评论(0)

配置ntpd时钟同步服务

ntpd时钟同步服务目录参考:CentOS配置时间同步NTP: http://www.crsay.com/wiki/wiki.php/server/centos/ntp-set解决ntp的错误 no server suitable for synchronization found: http://www.blogjava.net/spray/archive/2008/07/10/213964.h...
阅读(289) 评论(0)

Ambari和ClouderaManager主要不同对比

Ambari和ClouderaManager主要的不同对比 打算对新建的hadoop集群使用管理工具,列了以下主要的不同点: 主要的不同点 apache Ambari ClouderaManager Express(免费版) 配置版本控制和历史记录 支持 不支持 二次开发 支持 不支持 集成 支持 no (不支持redis、kylin、es) 维护...
阅读(986) 评论(0)

python使用snappy压缩

今天在网上找了很久,终于找到1个snappy压缩命令行,记录下来:1.wget https://bootstrap.pypa.io/get-pip.py2.python ./get-pip.py 3.yum install gcc-c++4.pip install python-snappy用法:python -m snappy -c uncompressed_file compressed_f...
阅读(597) 评论(0)
188条 共13页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:462502次
    • 积分:5032
    • 等级:
    • 排名:第5599名
    • 原创:118篇
    • 转载:68篇
    • 译文:2篇
    • 评论:45条
    最新评论