SparkSQL
图特摩斯科技
数据库方向-图数仓的发明者,时序、多维、异构、动态+静态知识图谱数据库AbutionGraph发明者。
展开
-
Hive 正则表达式使用 与 匹配中文
1.regexp语法: A REGEXP B 描述: 功能与RLIKE相同2.regexp_extract3.regexp_replace原创 2016-09-09 10:51:28 · 22221 阅读 · 0 评论 -
SparkSQL 操作 Json 格式数据
从嵌套列中选择Dots(.)可用于访问嵌套列的结构和映射。// input{ "a": { "b": 1 }}Python: events.select("a.b") Scala: events.select("a.b") SQL: select a.b from events// output{ "b": 1}扁平结构一个翻译 2017-07-24 10:22:17 · 10324 阅读 · 0 评论 -
Hive/sparkSQL ( NOT IN ) 语句优化 ---- bigger than spark.driver.maxResultSize (1.0 GB)
之前设置的6g,还是不够,报错如下:[Stage 5:===========================> (47 + 50) / 97]17/11/22 15:46:01 ERROR scheduler.TaskSetManager: Total size of serialized results of 52 tasks (原创 2017-11-22 16:04:24 · 3456 阅读 · 0 评论 -
SparkJDBC并行查询RDBMS数据库的参数方法
当通过spark读取mysql时,如果数据量比较大,为了加快速度,通常会起多个task并行拉取mysql数据。api:defjdbc(url: String, table: String, columnName: String, lowerBound: Long, upperBound: Long, numPartitions: Int, connectionProperties: Pro...原创 2019-04-12 17:49:05 · 1314 阅读 · 1 评论