qiubaifeng-CSDN博客

原创 windows修改hosts

1.通常 hosts文件位于C:/windows/system32/drivers/etc/如果可见的话，直接添加 ip 主机名 eg：192.168.226.128 test_host2.当hosts不可见的时候甚至etc都不可见的时候以管理员身份运行cmd命令窗口：第一步：cd C:/windows/system32/drivers/etc/ 第二步：...

2019-07-13 11:29:43 474

翻译 springmvc报错-字体图标库问题

报错：layui/font/iconfont.woff?v=250 net::ERR_ABORTED 404 (Not Found)解决方案：1.需要在iis服务器中添加如下：文件扩展名 MIME类型　.svg image/svg+xml.woff application/x-font-woff.woff2 application/x-font-woff2.如果是springmv...

2019-07-07 16:34:00 633

转载解决maven cannot change version of project facet dynamic web module to 3.0

解决maven cannot change version of project facet dynamic web module to 3.0maven 建立一个web-app后. 选择JDK1.8. 不能选择Dynamic Web Module3.0的修改办法.第一步: 先选择JDK1.8第二步: 修改pom.xml ，在<build></build&gt...

2019-07-05 08:31:16 195

转载 pom文件报错

确实安装插件，参考：https://blog.csdn.net/m0_37294207/article/details/80314294博客其中安装时将链接改为：https://otto.takari.io/content/sites/m2e.extras/m2eclipse-mavenarchiver/0.17.2/N/LATEST依次next安装完毕即可...

2019-06-25 20:06:03 297

原创 UDF函数开发流程

1。首先编写UDF 继承： org.apache.hadoop.hive.ql.exec.UDF; 需要导入hive-exec-0.13.1-cdh5.3.6.jar 包及hadoop-common-2.5.0-cdh5.3.6.jar eg:package com.paic.nets.pnc.udf;import java.text.SimpleDateFormat;...

2019-06-13 08:50:49 2144

原创批量查看hive表结构及备注方法

由于hive元数据表分离，一般有两种方式：1.如果有查看元数据的权限，可以直接去元数据库中通过sql语句查询表结构、权限信息；2.如果没有这个权限：写一个shell脚本，先使用 show tables 再把查询出来的结果放到临时文件/数组中，再循环取出每一个表进行desc...

2019-04-09 22:21:05 6323

原创外部文本数据导入hive数据库总结

外部文本数据导入hive流程：1. 首先加载数据到集群节点上，也可再次上传到hdfs上2.创建hive表：注意分隔符、表的文件格式；3.load data inpath 'file:///' load data inpath 'hdfs:///' into table table_name;注意：1.excel文件不是纯文本文件，不能直接读取每行，不建议使用csv分割，...

2019-04-09 22:16:36 390

原创 oracle存储过程的SQL语句转化成HIVE的SQL

这里转换成hive的sql语句：hql，其根本问题是为了解决hive不支持事物处理、数据删除操作，这两点是hive的sql和传统sql差异的主要点；就比如一段存储过程，现在需要迁移到hive上运行，一般主要过程：声明变量、初始化批次状态表(记录程序运行的位置及数据状态)、业务数据处理(事物处理)、更新批次状态表、删除业务数据(无效数据\已处理数据)；声明变量：通过java工具(项目开发中的一个...

2019-04-05 15:09:51 4040

原创 oracle-hive同步-merge/delete

通常在hive中进行数据处理，处理好的数据再推送到oracle中使用，需要保持两边数据一致，再推送的时候最好的方式是sqoop的merge形式全量推送，但这样消耗的资源、时间很长，可以只推送新增、更新、删除的数据给oracle，之后再再oracle中对目标表再单独的执行一段merge程序进行更新，筛选出这些数据的sql可参考下面这样的示例:其中：from 使用多模式插入 tel_...

2019-04-05 15:08:59 610

原创 shell脚本执行方式及^M常见小问题

vi命令中：^M 代表此处有个换行符这是因为在windows和linux中针对文件格式(dos/unix)换行符的不同导致的，可以通过执行 dos2unix file_name.txt 解决文件中的 ^M 绝对路径执行脚本：/appcom/apps/hduser/pnc-dp-common-config/d.sh ...

2019-04-05 14:25:14 1284

原创 hive和oracle中的default.dual

default.dual dual这个表只能存放一条测试数据，在使用 select from dafault.dual时，执行过程：from 的结果在经过where过滤后，得到的结果集行数决定了这个select的行数，当然 select 中可以对数据进行处理，但是如果 from的结果是个空的，那么select的结果必然也是空行，例如 select '1...

2019-04-05 14:23:19 557

原创分批次同步数据

背景：需要将9亿保单数据同步到hive中，但由于oracle并发限制，一晚上每天只能2亿左右；解决方法：1. 首先有一个增量同步程序，通过update_date同步每天的增量数据 2.初始化历史数据，通过显示update_date的时间范围，将每个月的数据量作为一个批次同步；每晚可以同步很多个批次(设置时间检查：白天时间段禁止同步) ...

2019-03-13 15:41:35 741

转载 in和exists

借用他人1.exist,not exist一般都是与子查询一起使用. In可以与子查询一起使用,也可以直接in (a,b.....)2.exist会针对子查询的表使用索引. not exist会对主子查询都会使用索引. in与子查询一起使用的时候,只能针对主查询使用索引. not in则不会使用任何索引. 注意,一直以来认为exists比in效率高的说法是不准确的。in

2017-10-30 22:41:43 283

qiubaifeng的博客