BigData
AlwaysOnMyWay
这个作者很懒,什么都没留下…
展开
-
ES特定场景性能优化
ES特定场景性能优化1. Overview本文主要介绍一下Elasticsearch(后文简称ES)做相关基准测试的流程,及分享一些我们做过的一些测试结论。简要说明下我们使用情况:宽表的用户画像OLAP分析场景,集群规模200节点,数据量30T左右全热数据,24h更新及查询,总数据量1500亿,日更新200亿。2. 基准测试2.1 测试流程由于 ES 是近乎线性扩展的分布式系统,所以对上述需求可以总结成同一个测试模式: 1. 使用和线上集群相同硬件配置的服务器搭建一个单节点集群。原创 2020-07-02 11:23:12 · 577 阅读 · 0 评论 -
Spark源码分析-spark集群启动及任务执行
注: 因为基于Akka的Actor的RPC版本相对容易理解一点,本文分析使用的Spark版本如下:<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId> <version>1.3.1</version></dependency>集群启动过程分析Mast原创 2017-07-11 14:12:36 · 1461 阅读 · 0 评论 -
Storm数据流模型的分析及讨论
本文首先介绍了Storm的基本概念和数据流模型,然后结合一个典型应用场景来说明Storm支持Topology之间数据流订阅的必要性,最后对比了Storm与另一个流处理系统在数据模型模型上的区别之处。Storm基本概念Storm是一个开源的实时计算系统,它提供了一系列的基本元素用于进行计算:Topology、Stream、Spout、Bolt等等。在Storm中,一个实时应用转载 2012-09-18 11:21:11 · 708 阅读 · 0 评论 -
Hive函数row_number实现
需求:查询一批用户最后三次登陆时间,ip数据row_number实现”’import org.apache.hadoop.hive.ql.exec.UDF;public class RowNumber extends UDF {private static int MAX_VALUE = 50;private static String comparedColumn[] = new String[原创 2015-08-31 21:21:39 · 3507 阅读 · 0 评论 -
hive常用字符串函数
字符串长度函数:length Java代码 语法: length(string A) 返回值: int 说明:返回字符串A的长度 举例: hive> select length(‘abcedfg’) from dual; 7 字符串反转函数:reverse Java代转载 2015-09-14 15:38:56 · 75352 阅读 · 0 评论 -
Elasticsearch写入性能优化
性能测试建议在一个节点的一个分片,不设置副本,测试性能在完全默认设置上记录性能数据,作为测试的基准线确保性能测试持续30分钟以上以确认长时间的性能;短时间的测试可能不会碰到segment合并和GC,无法确认这些因素的影响每次基于默认基准线更改一个参数,如果性能有提升就保留设置,并基于此设置做后续的测试bulk使用建议每个请求大小建议在5-15MB,逐步增大测试,当接收到EsRejecte原创 2016-01-13 17:26:37 · 43702 阅读 · 3 评论 -
Hive sql语法详解
1. DDL 操作DDL•建表•删除表•修改表结构•创建/删除视图•创建数据库•显示命令建表:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_name data_type [COMMENT col_comment], ...)] [转载 2015-07-16 21:02:32 · 2997 阅读 · 0 评论 -
海量数据处理 算法总结
1. Bloom Filter【Bloom Filter】Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有可能会出现错误判断,但不会漏掉判断。也就是Bloom Filter判断元素不再集合,那肯定不在。如果判断元素存在集合中,转载 2015-07-16 21:05:33 · 1377 阅读 · 0 评论 -
HBase技术介绍
HBase简介HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase是Google Bigtable的开源实现,类似Google Bigtable利用GFS作为其文件存储系统,HBase利用Hadoop HDFS作为其文件存储系统;Google运行M转载 2015-07-28 14:24:20 · 600 阅读 · 0 评论 -
hbase shell基础和常用命令详解
From: http://www.jb51.net/article/31172.htm基础知识记录,方便查阅 1. 简介 HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduc转载 2015-07-14 10:58:17 · 1232 阅读 · 0 评论