大数据
蓝喵小可爱
这个作者很懒,什么都没留下…
展开
-
Json特殊字符处理
这几天处理存储于json字段中的html文本,碰到特殊字符导致数据与字段错位,很是烦躁。\t:tab,跳格(移至下一列)\r:回车\n:换行解决方法:1、修改表存储格式<失败>2、regexp_replace<替换>hive> select regexp_replace('\t abc \n def \r hij', '\n|\t|\r', '');在网上搜索到解决案例如下:...原创 2020-07-28 14:33:40 · 1353 阅读 · 0 评论 -
Hive/HBase/MySQL数据库比较
HIve: 属于大数据生态系统中一个技术框架、用于分析数据 数据仓库ETL工具(ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程) 建立在Hadoop之上,为用户提供SQL语句分析海量数据,离线数据分析 底层MapReduce 类似于MYSQL数据库中database和table来组织数据 hive将元数据存储在MYSQL中。mysql: 属于RD原创 2020-07-08 14:13:36 · 566 阅读 · 0 评论 -
Hive函数总结(最全面的)
一、数学函数 返回类型 函数名/参数 描述 DOUBLE round(DOUBLE a) Returns the roundedBIGINTvalue ofa. 返回对a四舍五入的BIGINT值 DOUBLE round(DOUBLE a, INT d) Returnsarounded toddecimal...原创 2020-06-08 20:39:26 · 1042 阅读 · 0 评论 -
MYSQL:count(1)/count(*)/count(列名)区别
1. count(1) 和count(*)当表的数据量大些时,对表作分析之后,使用count(1)还要比使用count(*)用时多了!从执行计划来看,count(1)和count(*)的效果是一样的。 但是在表做过分析之后,count(1)会比count(*)的用时少些(1w以内数据量),不过差不了多少。如果count(1)是聚索引,id,那肯定是count(1)快。但是差的很小的。因为count(*),自动会优化指定到那一个字段。所以没必要去count(1),用count(*),...原创 2020-06-05 11:14:41 · 193 阅读 · 0 评论