大数据
文章平均质量分 86
TechingOn
这个作者很懒,什么都没留下…
展开
-
OLAP系统林林总总
系统比如:Presto,Impala,GreenPlum,Clickhouse,Elasticsearch,Hive,Spark SQL,Flink SQL,kudu。实时数据计算,需要实时进行数据ETL过程,实时流计算,来计算出结果,这类计算复杂性不会太高但是对数据处理的吞吐量要求很高,比如典型的计算一个APP的实时在线人数,当天实时新增人数等。秒级查询,即席查询这类场景,可选的方案Presto、Kudu,其他在复杂分析下基本做不到秒级,或者支持不了过于复杂的分析。:多维OLAP,预聚合模式。原创 2022-12-20 22:58:14 · 606 阅读 · 0 评论 -
KUDU响应时间长,IO调优
最近出现KUDU查询耗时一段时间非常长,差不多在3-5s左右。1.问题排查看到机器的以下监控数据,在出问题期间,IO量很大,IO占用CPU时间基本打满,明显是存在磁盘IO问题。进一步发现内存占用已到90%以上。使用pidstat -d 1统计进程的磁盘读写情况,发现kudu-tserver均值可到100多M每秒,明显定位到IO问题出现kudu上。性能优化、内存优化、kudu内存调优、LSM、WAL原创 2022-09-30 11:42:06 · 979 阅读 · 0 评论 -
clickhouse的日期处理
参考:https://clickhouse.tech/docs/en/sql-reference/functions/date-time-functions/#formatdatetime。解析:函数根据给定的格式字符串来格式化时间。请注意:格式字符串必须是常量表达式,例如:单个结果列不能有多种格式字符串。语法:formatDateTime(Time, Format [, Timezone])返回值:根据指定格式返回的日期和时间。原创 2022-09-19 14:43:55 · 5144 阅读 · 0 评论 -
Presto查询慢SQL原因排查
回到这个HIVE表本身,表中全量数据297万,问题在这些数据每日全量更新,没有按日分片,导致全表扫描。直观看到cpu这个数值特别大,rows14万行,似乎还可以,很难得出结论。基本可以坐实一件事儿,这个慢SQL需要扫描297万行数据。点开查询执行的详细信息发现输入行数也是2.97百万。只查一张表,底层是HIVE表,但是耗时需要5秒左右。还有另外一个分析执行计划命令,会更加详细。SQL执行时出现明显的峰值。...原创 2022-07-26 18:42:42 · 1538 阅读 · 0 评论 -
智能(个性化)推荐系统全流程落地实施方案
从以下一张总体脑图开始。整体上分为三个阶段离线计算、推荐结果的实时获取、推荐结果的评估。离线计算是推荐系统的核心部分,涉及从数据收集、内容画像、用户画像、召回、排序几个关键环节,这几个环节也体现出,推荐的本质是进行内容和用户的匹配。......原创 2022-07-20 22:31:04 · 1604 阅读 · 0 评论 -
【CentOS7+ Ambari 2.7.4 + HDP 3.1.4】搭建数据仓库
旧文拾起,来自某源搭建本地仓库:1. 下载软件包Ambari 2.7.4:http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.7.4.0/ambari-2.7.4.0-centos7.tar.gzHDP-3.1.4.0:HDP:http://public-repo-1.hortonworks.com/HDP/centos7/3.x/updates/3.1.4.0/HDP-3.1.4.0-centos7-rpm.tar.gzHD原创 2022-06-29 11:03:28 · 361 阅读 · 1 评论 -
一张图讲完Hbase核心原理
目录一、特点二、适用场景三、架构原理四、写过程五、读过程放大观看!强烈建议放足够大再看一个冷门知识点:Hbase的名字的来源是 Hadoop database一、特点大:一个表可以有上十亿行,上百万列面向列:面向列(族)的存储和权限控制,列(族)独立检索。稀疏:对于为空(null)的列,并不占用存储空间,因此,表可以设计的非常稀疏。二、适用场景快速读写,快速简单检索、基于HDFS的海量数据存储支持随机读写更新实际上是多版本新增不支.原创 2022-05-11 17:25:54 · 517 阅读 · 0 评论