![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hive
lee_moonj
For Sharing
展开
-
python UDF 实现对csv批量md5加密
工作上遇到需求,一批手机号要md5加密导出。为了保证数据安全,所以没有采用网上工具来加密。md5的加密算法是开源的且成熟的,很多语言都有对应包可以直接用,我写了一个简单的python来实现,另一位同事做了一个hiveUDF来实现,这里都给大家分享一下。目标:读取csv文件,并且对其中的内容进行md5加密,32位加密,将加密后的密文存入另一个csv文件。python实现:(1)准备好要读取的...原创 2020-04-17 12:29:30 · 799 阅读 · 1 评论 -
sqoop import 导入到hive后数据量变多的问题
使用sqoop import 命令从postgresql导入数据到hive中,发现数据行数变多了,但是任务没有跑错,非常奇怪。导入语句为:sqoop import --connect jdbc:postgresql://*.*.*.*:5432/database_name --username name111 --password password111 --table table11...原创 2019-11-06 16:58:57 · 3115 阅读 · 2 评论 -
hive case when的选择顺序优先级问题
hive 中有case when 的语法是:case when 条件1 then 结果1when 条件2 then 结果2when 条件3 then 结果3......else 结果x end那如果被查询的行同时符合条件1和条件3呢?结果会是出现“结果1”还是“结果3”呢?根据测试,是符合结果1,原因是语句先“碰见” when 条件1 then 结果1这一句。如果语句改为:se...原创 2019-09-23 11:50:29 · 9533 阅读 · 0 评论 -
hive不能连续比较运算
日常写代码中发现,hive不能连续比较运算,记录一下:错误写法:hive> select 1<2<3;OK_c0trueTime taken: 0.142 seconds, Fetched: 1 row(s)hive> select 1<7<3;OK_c0trueTime taken: 0.131 seconds, Fetched: 1 ...原创 2019-09-23 11:11:38 · 309 阅读 · 0 评论 -
如何往hive直接插入自定义数据values
我们熟知的hive支持插入数据的方式有两种,覆盖写入insert overwrite和增量写入insert into。常见数据获取方式有两种(1)文件导入load data (local) inpath…(2)查询导入 insert overwrite/into table select * from table1…但是,hive支不支持直接插如自定义数据呢,有没有类似sql类数据库的“inse...原创 2019-08-12 14:34:43 · 19961 阅读 · 0 评论 -
ambari 提示hiveserver2拒绝连接
记一次集群修复问题:有天上班突然发现ambari提示hiveserver2拒绝连接,按照习惯,先重启hiveserver2的服务。结果发现重启后还是报错,遂进入服务器直接敲“hive”命令,得到下面输出:The number of live datanodes 3 has reached the minimum number 0.Safe mode will be turned off ...原创 2019-06-24 16:55:27 · 2102 阅读 · 0 评论 -
hive按日期连续统计每天的新增和总量
记录一次统计需求的实现:需求:现有表ticket_detail(telphone,name,createddate),记录了人员新增信息,每增加一行,代表有新的人员加入。表ticket_detail示例如下:现在要统计每天新增的人数,以及每天新增后的人员总数,并且,要去重相同的人员,通过(telphone,name)来唯一标识一个人员。统计结果先看统计后的结果:实现方法接下来是阐...原创 2019-06-20 15:37:02 · 12736 阅读 · 5 评论 -
sqoop export导出 map100% reduce0% 卡住的多种原因
我称这种bug是一个典型的“哈姆雷特”bug,就是指那种,报错情况相同但网上却会有各种五花缭乱解决办法的bug,让我们不知道哪一个才是症结所在。先看导入命令:[root@host25 ~]# sqoop export --connect "jdbc:mysql://172.16.xxx.xxx:3306/dbname?useUnicode=true&characterEncoding...原创 2019-06-13 14:57:20 · 4277 阅读 · 0 评论 -
sqoop 工具报错:No columns to generate for ClassWriter报错真实原因
今天遇到这个错误,查了一下网上的答案五花八门,分析对比后结果发现,这个报错其实不是真正的报错。只是这段话刚好是报错代码的最后面,所以才被误以为这是一个独立的报错,这只是一类错误的统称,其实有很多不同的错误都会导致出现这个代码。 java.io.IOException: No columns to generate for ClassWriter比如:(1)由于mysql驱动mysql-co...原创 2019-05-29 16:48:01 · 10011 阅读 · 7 评论 -
记录hive union操作拆过的坑
我们经常用union操作是来连接两个或者多个查询结果。但在hive中使用需要注意避免几个坑:1、union和union all的选择。Hive在1.2.0之前的版本只支持union all,在1.2.0之后的版本才支持union。在老版本中使用union连接,会报错,并且会提醒你加上all。union all和union的区别在于:连接后,union all会保留重复的记录而union不会。...原创 2019-06-06 16:56:33 · 959 阅读 · 0 评论 -
sqoop导入报错:Bad URL format. Hostname not found in authority part of the url: null:null.
记录一个在大数据平台进行数据导入的错误:Caused by: java.lang.IllegalArgumentException: Bad URL format. Hostname not found in authority part of the url: null:null. Are you missing a '/' after the hostname ? at o...原创 2019-05-29 11:27:59 · 3631 阅读 · 0 评论 -
往hive导入查询数据全为NULL,但导入过程无报错,mysql/postgresql
今天导数遇到一个问题,通过sqoop import从 postgresql导数据到hive中后,发现查询出来全部都是空的:检查导入命令,没有错啊:[root@dthost25 ~]# sqoop import --connect jdbc:postgresql://192.168.xxx.xxx:5432/xxxxdb --username xxxx --password xxxxxxx ...原创 2019-06-06 12:19:43 · 4273 阅读 · 0 评论 -
sqoop query时单双引号选用以及$CONDITION使用的探究
这段时间碰见了一个奇怪的sqoop导入问题。我的业务目标是想将postgresql库里的某张表内的数据导入到hive里,而且在导入的时候需要做一步查询。但在导入的时候,围绕着"$CONDITION"这个参数,会有不同的运行结果,有的报错,有的查询结果为空,我们下面来看看:在pgsql里的查询语句为:# postgresql 查询语句select id,check_code,lastupdat...原创 2019-05-28 15:52:04 · 9900 阅读 · 7 评论 -
postgresql导入数据到hive
整张表导入在linux环境中运行:[root@dthost27 ~]# sqoop import --connect jdbc:postgresql://192.168.xxx.xxx:5432/pgsql_db --username user11 --password 123456 --table pgsql_table11 --hive-import --hive-database ...原创 2019-05-23 17:01:55 · 3069 阅读 · 0 评论 -
excel数据从windows导入hive
1、将excel对应表保存为txt文本(制表符分隔)将txt文件导入linux系统这里采用了工具secureCRT,该工具可以通过命令rz从windows系统快速导入文件[root@dthost27 ~]# rz欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下...原创 2019-05-23 16:40:11 · 1125 阅读 · 0 评论