自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Greenplum 性能优化之路 --(三)ANALYZE

一、为什么需要 ANALYZE首先介绍下 RBO 和 CBO,这是数据库引擎在执行 SQL 语句时的2种不同的优化策略。RBO(Rule-Based Optimizer)基于规则的优化器,就是优化器在优化查询计划的时候,是根据预先设置好的规则进行的,这些规则无法灵活改变。举个例子,索引优先于扫描,这是一个规则,优化器在遇到所有可以利用索引的地方,都不会选择扫描。这在多数情况下是正确的,但也不完全如此:比如 一张个人信息表中性别栏目加上索引,由于性别是只有2个值的枚举类,也就是常说的基数非常低

2020-09-30 00:01:06 1410

原创 Greenplum 性能优化之路 --(二)存储格式

一、存储格式介绍Greenplum(以下简称 GP)有2种存储格式,Heap 表和 AO 表(AORO 表,AOCO 表)。 Heap 表:这种存储格式是从 PostgreSQL 继承而来的,目前是 GP 默认的表存储格式,只支持行存储。 AO 表: AO 表最初设计是只支持 append 的(就是只能 insert ),因此全称是Append-Only,在4.3之后进行了优化,目前已经可以 update 和 delete 了,全称也改为 Append-Optimized。AO ..

2020-09-29 23:44:58 2557

转载 Greenplum 性能优化之路 --(一)分区表

一、什么是分区表分区表就是将一个大表在物理上分割成若干小表,并且整个过程对用户是透明的,也就是用户的所有操作仍然是作用在大表上,不需要关心数据实际上落在哪张小表里面。Greenplum 中分区表的原理和 PostgreSQL 一样,都是通过表继承和约束实现的。Greenplum 官方给出的分区表示例如下:partitions.jpg二、与分布的区别分布:DISTRIBUTED分区:PARTITIONGreenplum 中每个表都需要有一个分布键,如果你建表的...

2020-09-29 19:15:25 2243

原创 腾讯云大数据发布最新产品矩阵,助力企业整合打通海量数据

9月11日,主题为“释放数字经济发展的新动能”的腾讯全球数字生态大会大数据专场在线上拉开帷幕。腾讯大数据领域的多位顶级专家,与包括 Hadoop 创始人 Doug Cutting 在内的业内顶级大咖,以及众多行业合作伙伴一起相聚云端,共话大数据技术的最新技术演进趋势和应用实践。「Hadoop 创始人 Doug Cutting 亲自站台」Doug Cutting 表示,软件成为进步的主要来源,要实现创新,组织需要重视开源的力量。开源不仅可以更快地提升单个技术,对于整个开源社区、开源环境来说..

2020-09-29 19:01:58 1857

原创 腾讯云副总裁刘煜宏:大数据平台算力弹性资源池达500万核,国内最强

在2020腾讯全球数字生态大会上,腾讯云副总裁刘煜宏透露,腾讯云大数据平台的算力弹性资源池达500万核,每日分析任务数达1500万,每日实时计算次数超过40万亿,能支持超过一万亿维度的数据训练。腾讯云不仅已经成为国内算力最强的云厂商,同时也是日实时计算量最大的公司。

2020-09-29 18:56:27 1044

原创 持续引领大数据行业发展,腾讯云发布全链路数据开发平台WeData

9月11日,在腾讯全球数字生态大会大数据专场上,腾讯云大数据产品副总经理雷小平重磅发布了全链路数据开发平台WeData,同时发布和升级了流计算服务、云数据仓库、ES、企业画像等6款核心产品,进一步优化和提升了腾讯云大数据的全托管能力,助力企业从基础设施层、场景开发层以及行业应用层快速构建一站式大数据平台能力。「借助WeData,企业数据开发门槛降低60%」雷小平表示:“构建大数据开发平台是企业数字化转型的关键步骤,然而从数据集成到开发调度等涉及的模块众多,导致整个平台的维护和...

2020-09-29 18:48:41 1014

转载 联邦计算:不暴露真实数据如何完成合作建模?

导语 |在金融场景下,银行等机构有强烈愿望和其他数据拥有方合作建模,但出于商业和合规方面的考虑,又不愿共享核心数据,导致行业内大规模数据共享迟迟无法推动。本文将从经典警匪影片情节出发,从技术角度探讨如何解决这一困境,希望与大家一同交流。文章作者:王礼斌,腾讯云大数据研发工程师。一、引言银行等金融机构拥有用户历史行为数据,例如是否违约诈骗等,但缺乏数据去对新用户进行判断。而运营商、卡组织(如银联、VISA)等拥有大量数据的机构,有意愿跟金融机构合作建模。但是,因为金融机构与数据拥...

2020-09-29 18:40:34 1243

转载 手把手教你:将 ClickHouse 集群迁至云上

前言随着云上 ClickHouse 服务完善,越来越多的用户将自建 ClickHouse 服务迁移至云上。对于不同数据规模,我们选择不同的方案: 对于数据量比较小的表,通常小于10GB 情况下,可以将数据导出为 CSV 格式,在云上集群重新写入数据; 使用 clickhouse 发行版自带工具 clickhouse-copier 来完成。 本文详解 clickhouse-copier 完成跨 ClickHouse 集群数据迁移(当然也适用于用户集群内部数据不同表间数据迁移..

2020-09-29 18:28:27 518

转载 Clickhouse 在大数据分析平台 - 留存分析上的应用

导语|本文实践了对于千万级别的用户,操作总数达万级别,每日几十亿操作流水的留存分析工具秒级别查询的数据构建方案。同时,除了留存分析,对于用户群分析,事件分析等也可以尝试用此方案来解决。文章作者:陈璐,腾讯高级数据分析师 背景你可能听说过Growingio、神策等数据分析平台,本文主要介绍实现留存分析工具相关的内容。留存分析是一种用来分析用户参与情况/活跃程度的分析模型,可考查进行初始行为后的用户中,有多少人会进行后续行为,这是衡量产品对用户价值高低的重要指标。如,为评估产品更新效果或渠道推...

2020-09-15 18:58:43 894

转载 服务质量分析:腾讯会议&腾讯云Elasticsearch玩出了怎样的新操作?

【活动】Elasticsearch Service免费体验馆>>Elasticsearch Service自建迁移特惠政策>>Elasticsearch Service新用户特惠狂欢低至4折>>Elasticsearch Service企业上云特惠>>引言腾讯会议于2019年12月底上线,两个月内日活突破1000万,被广泛应用于疫情防控会议、远程办公、师生远程授课等场景,为疫情期间的复工复产提供了重要的远程沟通工具。上线100.

2020-09-15 18:22:18 745

转载 图计算黑科技:打开中文词嵌入训练实践新模式

导语 |在自然语言处理领域,文本表示学习技术可以帮助我们将现实世界转化为计算机可以处理的数据,以求更精准地建立学习模型。而在中文搜索场景下,同音词、易混词、错别字等文本的召回和相似度匹配一直存在着棘手的问题,本文将尝试从图计算的角度来进行中文词向量的训练,并取得了积极的效果,希望与大家一同分享交流。文章作者:翟彬旭,腾讯云大数据高级研发工程师。一、技术背景在中文搜索场景下,同音词、易混词、错别字等文本的召回和相似匹配是一个常见且棘手的问题。NLP(自然语言处理)社区对文本的匹配和召...

2020-09-14 08:51:44 525

转载 鹰眼 | 分布式日志系统上云的架构和实践

导语|930变革后,公司明确了“开源协同、自研上云”的公司技术战略,通过自研业务上云,整合资源使用、推动架构能力互补,促进自研业务与云产品协同发展,同时实现产业互联网发展战略和促进腾讯云业务做大做强。公司也专门成立了组织架构单元大力推动公司级业务上云。为了响应这个号召,分布式日志系统(鹰眼)也在积极探索将原有业务迁入云端的方案。目录一、鹰眼平台介绍二、上云的背景三、组件上云架构优化和云上组件选型四、上云之后的变化五、后续架构的演进,监控体系的完善。一、鹰眼平台介绍鹰眼是是由...

2020-09-14 08:42:28 717

转载 PB级大规模Elasticsearch集群运维与调优实践

【活动】Elasticsearch Service免费体验馆>>Elasticsearch Service自建迁移特惠政策>>Elasticsearch Service新用户特惠狂欢低至4折>>Elasticsearch Service企业上云特惠>>导语 |腾讯云Elasticsearch 被广泛应用于日志实时分析、结构化数据分析、全文检索等场景中,本文将以情景植入的方式,向大家介绍与腾讯云客户合作过程中遇到的各种典型问题,以及相应的解决思路..

2020-09-14 08:36:43 519 1

转载 Elasticsearch索引容量管理实践

【活动】Elasticsearch Service免费体验馆>>Elasticsearch Service自建迁移特惠政策>>Elasticsearch Service新用户特惠狂欢低至4折>>Elasticsearch Service企业上云特惠>>Elasticsearch是目前大数据领域最热门的技术栈之一,腾讯云 Elasticsearch Service(ES)是基于开源搜索引擎 Elasticsearch 打造的高可用、可伸缩的云端全托.

2020-09-14 08:10:42 601

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除