- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 Spark RDD和DAG生成
RDD依赖 Rdd之间存在血缘关系(Lineage),因此RDD之间存在联系,其中分为宽依赖和窄依赖。 (1)宽依赖 宽依赖指多个RDD的partition依赖同一个父RDD的partition (2)窄依赖 窄依赖指RDD的partition都只依赖于一个父RDD不同的partition 所有依赖都需实现trait Dependency[T] 窄依赖代码实现: abstract class ...
2019-09-22 23:21:55 166
原创 索引知识总结
简介 索引是用于快速找到记录的一种数据结构 索引值匹配的方式 1.全值匹配(所有的列都进行匹配) 2.匹配最左前缀(只使用索引的第一列) 3.匹配列前缀(只匹配某一列值开头部分) 3.匹配范围值(查找值为某一范围时,只使用第一列) 4.覆盖索引(只访问索引,不访问数据行) 索引的优点 1.减少需扫描的数据量 2.避免排序和临时表 3.将随机IO表为顺序IO 索引类型 在mysql中,索引由存储引擎...
2019-09-04 00:41:27 120
原创 hive row_number()异常window function row_number() requires window to be ordered
row_numbter()报错: window function row_number() requires window to be ordered。 row_number()后需跟order by column。 加上排序字段即可。
2019-09-03 09:07:16 1629
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人