- 博客(4)
- 资源 (3)
- 收藏
- 关注
原创 【SQL】利用HAVING取众数和中位数
本篇文章介绍如何使用HAVING取数据集合的众数和中位数 参考《SQL进阶教程》 1. 创建测试表及测试数据 CREATE TABLE graduates ( name varchar(255), income number(10) ); INSERT INTO graduates VALUES ('桑普森', '400000'); INSERT INTO graduates VA...
2020-03-29 10:25:19 7118 5
原创 【Hive】分桶表
1. 什么是分桶表 分桶表是按照某列属性值,把数据打散存储在不同文件的Hive表. 2. 分桶的原理 Hive官网解释: How does Hive distribute the rows across the buckets? In general, the bucket number is determined by the expression hash_function(bucketing...
2020-03-28 20:53:19 365
原创 【Kafka】Kafka安装部署
前期环境准备 准备好相应的服务器 本文中服务器共三台: node01,node02,node03 服务器已安装zookeeper集群 Kafka安装步骤 下载安装包 下载地址: http://kafka.apache.org/downloads 上传安装包到node01的指定目录 请选择合适的工具上传,过程略. 解压到指定目录 tar -zxvf kafka_2....
2020-03-15 09:08:27 465
原创 【Spark】sparksql中使用自定义函数
代码中分别用面向对象和面向函数两种写法自定义了两个函数: low2Up: 小写转大写 up2Low: 大写转小写 import org.apache.spark.sql.types.StringType import org.apache.spark.sql.{DataFrame, SparkSession} object SparkSQLFunction { def main(args...
2020-03-11 08:47:09 1002
Python Indent插件
2017-09-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人