【博学谷学习记录】超强总结,用心分享|大数据之Presto

Presto的优化

    Presto 的优化是一个非常有水平的问题,大致总结下,分如下几个类别:
数据存储
    想要使用 Presto 更高效地查询数据,需要在数据存储方面利用一些优化手段。
合理设置分区
    与 Hive 类似,Presto 会根据元数据信息读取分区数据,合理地设置分区能减少 Presto 数据读取量,提升查询性能。
使用 ORC 格式存储
    Presto 对 ORC文件 读取进行了特定优化,因此,在 Hive 中创建 Presto 使用的表时,建议采用 ORC 格式存储。相对于 Parquet 格式,Presto 对 ORC 格式支持得更好。
使用压缩
    数据压缩可以减少节点间数据传输对 IO 带宽的压力,对于即席查询需要快速解压,建议采用 Snappy压缩。
预先排序
    对于已经排序的数据,在查询的数据过滤阶段,ORC格式支持跳过读取不必要的数据。比如对于经常需要过滤的字段可以预先排序。
SQL查询
    想要使用 Presto更高效地查询数据,需要在编写查询SQL语句方面利用一些优化手段。
只选择需要的字段
    由于采用列式存储,所以只选择需要的字段可加快字段的读取速度,减少数据量。避免采用 * 读取所有字段。
过滤条件必须加上分区字段
    对于有分区的表,where语句中优先使用分区字段进行过滤。acct_day 是分区字段,visit_time 是具体访问时间。
Group By语句优化
    合理安排 Group by语句中字段顺序对性能有一定提升。将 Group By 语句中字段按照每个字段 distinct 数据多少进行降序排列。
Order by时使用Limit
    Order by 需要扫描数据到单个 worker 节点进行排序,导致单个worker需要大量内存。如果是查询 Top N 或者 Bottom N,使用 limit 可减少排序计算和内存压力。
使用近似聚合函数
    Presto有一些近似聚合函数,对于允许有少量误差的查询场景,使用这些函数对查询性能有大幅提升。比如使用approx_distinct()函数比Count(distinct x)有大概2.3%的误差。
用regexp_like代替多个like语句
    Presto查询优化器没有对多个 like 语句进行优化,使用regexp_like对性能有较大提升。
使用Join语句时将大表放在左边
    Presto中 join 的默认算法是broadcast join,即将 join 左边的表分割到多个 worker ,然后将join 右边的表数据整个复制一份发送到每个worker进行计算。如果右边的表数据量太大,则可能会报内存溢出错误。

[GOOD] SELECT … FROM large_table l join small_table s on l.id = s.id
[BAD] SELECT … FROM small_table s join large_table l on l.id = s.id
1
2

使用Rank函数代替row_number函数来获取Top N
    在进行一些分组排序场景时,使用rank函数性能更好
注意事项
     ORC和Parquet 都支持列式存储,但是ORC对Presto支持更好(Parquet对Impala支持更好)
    对于列式存储而言,存储文件为二进制的,对于经常增删字段的表,建议不要使用列式存储(修改文件元数据代价大)。对比数据仓库,dwd层建议不要使用ORC,而dm层则建议使用。
可能出现问题
    使用 Presto 注意如下几点:
如何加快在Presto上的数据统计
    很多的时候,在Presto上对数据库跨库查询,例如Mysql数据库。这个时候Presto的做法是从MySQL数据库端拉取最基本的数据,然后再去做进一步的处理,例如统计等聚合操作。
    上面的SQL语句会分为3个步骤进行:

    (1)Presto发起到Mysql数据库进行查询

    (2)对结果进行count计算

    (3)返回结果

    所以说,对于Presto来说,其跨库查询的瓶颈是在数据拉取这个步骤。若要提高数据统计的速度,可考虑把 Mysql 中相关的数据表定期转移到HDFS中,并转存为高效的列式存储格式ORC。

    所以定时归档是一个很好的选择,这里还要注意,在归档的时候我们要选择一个归档字段,如果是按日归档,我们可以用日期作为这个字段的值,采用yyyyMMdd的形式,例如20180123.
    
    查看创建的库结构:
    
    SHOW CREATE TABLE table_name;

     带有分区的表创建完成之后,每天只要更新分区字段partition_date就可以了,聪明的Presto 就能将数据放置到规划好的分区了。
    如果要查看一个数据表的分区字段是什么,可以下面的语句:

	SHOW PARTITIONS FROM table_name;

    如果数据被规当到 HDFS 中,并带有分区字段。在每次查询归档表的时候,要带上分区字段作为过滤条件,这样可以加快查询速度。因为有了分区字段作为查询条件,就能帮助Presto避免全区扫描,减少Presto需要扫描的HDFS的文件数。
多使用 WITH 语句
    使用 Presto 分析统计数据时,可考虑把多次查询合并为一次查询,用 Presto 提供的子查询完成。

    这点和我们熟知的MySQL的使用不是很一样。
利用子查询,减少读表的次数,尤其是大数据量的表
    具体做法是,将使用频繁的表作为一个子查询抽离出来,避免多次 read。
只查询需要的字段
    一定要避免在查询中使用 SELECT * 这样的语句,就像只有告诉我们需要查询数据越具体,工作效率越高。

    对于我们的数据库而言也是这样,任务越明确,工作效率越高。

    对于要查询全部字段的需求也是这样,没有偷懒的捷径,把它们都写出来。
Join查询优化
    Join左边尽量放小数据量的表,而且最好是重复关联键少的表。
字段名引用
    避免字段名与关键字冲突:MySQL对于关键字冲突的字段名加反引号,Presto 对与关键字冲突的字段名加双引号。当然,如果字段名不与关键字冲突,则可以不加双引号。
时间函数
    对于 timestamp,需要进行比较的时候,需要添加 timestamp 关键字,而 MySQL 中对 timestamp 可以直接进行比较。
MD5 函数的使用
    Presto 中 MD5 函数传入的 是 binary 类型,返回的也是binary类型,要对字符串进行 MD5操作时,需要转换;
不支持 INSERT OVERWRITE 语法
    Presto中不支持 insert overwrite语法,只能先delete,然后insert into
ORC 格式
    Presto 中对 ORC 文件格式进行了针对性优化,但在 impala 中目前不支持ORC格式的表,hive中支持 ORC 格式的表,所以想用列式存储的时候可以优先考虑ORC格式
PARQUET 格式
     Presto 目前支持 parquet 格式,支持查询,但不支持 insert
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值