
Hive
文章平均质量分 84
Hive数据库操作
fanstuck
曾世界百强私企大数据工程师,现任国企高级人工智能算法工程师,工作与研究方向为大数据开发和人工智能,个人喜欢研究技术和算法,博客热衷分享实用项目和技术干货。MCM/ICM Meritorious Winner,APMCM second prize,SCI二区一篇,软著五项专利一项,中国互联网+创新创业大赛省金国铜,全国计算机设计大赛省二国三,全国数统三等。总计省级奖项以上23项,热衷分享喜欢原创~关注我会给你带来一些不一样的认知和成长。
展开
-
Hive时间日期函数一文详解+代码实例
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。Hive中的表示纯逻辑表,只有表的定义等,即表的元数据(存储于MySQL中)。本质就是Hadoop的目录/文件,这种设计方式实现了元数据与数据存储分离。Hive本身不存储数据,它完全依赖HDFS和MapReduce。时间在数据库中经常作为时间索引,在数据入库和出库以及更新的时候都需要变化。在一些指标计算或者是提取某段时间的数据时,都会根据数据库中的时间索引数据进行操作。...原创 2022-08-09 10:32:44 · 17552 阅读 · 40 评论 -
HiveSQL源码之语法词法编译文件解析一文详解
工欲善其事必先利其器,首先要了解HiveSQL的编译语法的流程,还是需要懂得HiveSQL的执行流程以及编译规则。Hive详解以及CentOS下部署Hive和Mysql我们现在主要研究SQL Parser语法解析这块内容。语法解析可以说是研究一门编程语言的基础了,我们编程语言本身就是告诉计算机要帮助我们做什么事。antlr是编译原理领域比较著名的工具了,这次借助研究hivesql的机会,安装使用一下antlr。原创 2022-08-22 21:29:22 · 2725 阅读 · 75 评论 -
HiveSQL分位数函数percentile()使用详解+实例代码
作为数据分析师每个SQL数据库的函数以及使用技能操作都得点满,尤其是关于统计函数的使用方法。关于统计出数据的中位数,众数和分位数的方法必须掌握几种,一般在实际业务上大部分都是以写SQL查询为主,因为如果想用Python的Pandas去做数据分析还得将数据导出来读出来,输出了结果还得再倒进去,十分的麻烦。若是能在SQL上面直接处理简单问题,那么效率要远高于导出做Pandas处理。原创 2022-09-01 19:32:24 · 20275 阅读 · 8 评论 -
一文速学-HiveSQL解析JSON数据详解+代码实战
JSON文件存储格式十分常见,在各个数据库中以及业务场景都有关于该文件的处理方式。但是有时候处理JSON文件在不同的数据库处理方法也不同,掌握一些高效的函数可以大大简化我们处理JSON数据格式的效率。面对一些复杂的存储形式,例如JSON数组存储这种就必须采取一定的处理方式,下面是处理HiveSQL解析JSON数据的函数与方法。...原创 2022-08-10 15:53:31 · 8437 阅读 · 47 评论 -
Hive详解以及CentOS下部署Hive和Mysql
前言本人大三大数据专业,配置的虚拟机为Centos6.7系统,hadoop版本为2.6.0版本,先前已经完成搭建CentOS部署Hbase、CentOS6.7搭建Zookeeper和编写MapReduce前置插件Hadoop-Eclipse-Plugin 安装。在此基础上进行Hive下的部署以及mysql的一个连接,完成Hive的应用。提示:以下是本篇文章正文内容,下面案例可供参考一、什么是Hive?根据我们整体的Hadoop的架构来看,Hive是建立在hadoop整体运行机制上作...原创 2020-11-11 19:51:53 · 1657 阅读 · 2 评论 -
Window10 pyhive连接hive报错:Could not start SASL: b‘Error in sasl_client_start (-4) SASL(-4)
项目场景:在Windows上使用python调用pyhive库连接hive。hiveip地址都能正确ping通,本地也能连上。问题描述问题1:pyhive No module named sasl处理完之后又遇到:问题2:Could not start SASL: b'Error in sasl_client_start (-4) SASL(-4) 原因分析:问题1:pyhive No module named sasl缺少依赖,如果是anaconda下面进行连接的...原创 2022-05-27 15:04:56 · 1799 阅读 · 4 评论