自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 HIVE实战处理(五) hive json map格式的数据组装

一、前言 在做数据聚合整理的时候,存在需要将同一ID的多列,合并成一个json,通过collcet_Set手动拼接json,手动效率不高,而且内置的UDF有连接符,最后生成的json格式怎么调试都不对,本想自己写UDF生成json,google后找到存在的UDF函数,先做以下记录: HiveUD...

2020-07-08 17:34:37 42 0

原创 hive到Hbase映射方式(二)——使用hbase的ImportTsv(不支持跨集群)

一、前言 本文是为了记录工作中用到的技术方案,为了把同一个集群的hive中的表导入到hbase表的。 二.技术方案 1、准备hive表数据 1)hive的表数据 create table adm.adm_2ndline_user_visit_1h_delta_hourly( stat...

2020-07-08 16:37:32 15 0

原创 Oracle中number类型经过类型转换之后小数点前的0消失了

```bash select to_char(round(50/342),’‘fm9999999990.00’) || ‘KB’ from dual;

2020-05-22 19:17:38 91 0

转载 计算机专业英语词汇1695词(35天记忆)

<link href="https://csdnimg.cn/public/favicon.ico" rel="SHORTCUT ICON"> <title>计算机专业英语词汇1695词(35天记忆)_Until_U的博客-CSDN博...

2020-05-19 14:19:18 128 0

转载 Kettle实战(一)从Hbase导入数据至Mysql

一、连接Hadoop集群与MySQL 1、 下载当前集群的Hbase配置文件,首先你的有下载的权限。 2 解压改配置文件至cdh510目录下 3 修改D:\kettle\data-integration\plugins\pentaho-big-data-plugin下plugin.proper...

2020-05-15 13:47:06 124 0

原创 HIVE实战处理(四)大数据量导入hive动态分区异常处理

动态分区的异常 Caused by: org.apache.hadoop.hive.ql.metadata.HiveFatalException: [Error 20004]: Fatal error occurred when node tried to create too many dyna...

2020-05-07 16:11:35 86 0

原创 HIVE实战处理(三)hive的压缩格式以及压缩文件导入hive实战

一、存储 行存储的特点: 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需要找到其中一个值,其余的值都在相邻地方,所以此时行存储查询的速度更快。 列存储的特点: 因为每个字段的数据聚集存储,在查询只需要少数几个字段的时候,能大大减少读取的数据量;每个字段...

2020-05-06 19:19:14 208 0

原创 Kettle部署文档

一、简单介绍 Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。 Kettle中有两种脚本文件,tr...

2020-04-17 13:51:52 66 0

原创 HIVE实战处理(二)hive、hbase、phoenix实战

数据从 1、准备hive数据 2、phoenix数据 -- 添加HIVE对接PHOENIX的JAR add jar hdfs://ns1/user/hadoop/hive_udf/phoenix-core-4.7.1-HBase-1.1-SNAPSHOT.jar; add jar hdfs://n...

2020-04-15 13:26:53 57 0

原创 HIVE实战处理(三)beeline和hive的区别

1、 二、实战 1、准备hive数据 2、phoenix数据 -- 添加HIVE对接PHOENIX的JAR add jar hdfs://ns1/user/hadoop/hive_udf/phoenix-core-4.7.1-HBase-1.1-SNAPSHOT.jar; add jar hdfs...

2020-04-15 12:55:04 464 0

原创 kettle生产应用之(一)hive2oracle的流程化操作以及oracle的页面展示

1、准备一个hive分区表数据 temp.tmp_adm_label 2、登录Oracle客户端 file->new->command window 创建oracle的执行命令窗口 输入sql:desc 表名。 点击齿轮形状的按钮,执行代码。 2、在orcale页面的命令行创建ora...

2020-04-10 19:57:16 88 0

原创 oracle数据BUG系列之(一) unable to extend table SYS.AUD$ by 8192 in tablespace SYSTEM

今天在调项目的时候,突然报了这样一个错误 : 具体错误信息如下: WARN – com.mchange.v2.resourcepool.BasicResourcePool$AcquireTask@1a78424 — Acquisition Attempt Failed!!! Clearing pe...

2020-03-31 20:49:26 120 0

原创 网络学习系列之(一)四、七层负载均衡

一、网络二到七层负载均衡 1、网络七层协议(二到七层含义) 所谓四层即运输层,就是基于 IP + 端口的负载均衡; 七层即应用层,就是基于 URL 等应用层信息的负载均衡; 同理,还有基于 MAC 地址的二层负载均衡和基于 IP 地址的三层负载均衡。 换句换说, 二层负载均衡会通过一个虚拟 MAC...

2020-03-27 20:13:14 61 0

原创 kafka执行工具系列之(一)原生的kafka的脚本

原生 kafka 提供的工具脚本: 一、所有工具脚本的位置: [root@master my_bin]# cd $KAFKA_HOME [root@master kafka]# cd bin/ [root@master bin]# ll 总用量 116 -rwxr-xr-x. 1 root ro...

2020-03-26 19:35:40 79 0

kafka执行工具系列之(一)原生的kafka的脚本

1、实际生产kafka相关: /home/migu/kafka/kafka_2.11-0.8.2.2/bin/kafka-consumer-offset-checker.sh --zookeeper 10.150.36.222:2181 --topic filter_session_start ...

2020-03-26 19:30:29 77 0

原创 mysql基本操作系列之(一)增删改查

一、数据库管理和存储引擎 MySQL是一个关系型数据库管理系统,存储引擎是数据库管理系统用来从数据库创建、读取和更新数据的软件模块。 常用的存储引擎: 1)INNODB 存储格式:.frm(表结构), 数据和索引存储在表空间里, 支持事务和回滚,读写效率低,占用空间大 2)MYISAM 存储格式:...

2020-03-11 15:23:21 40 0

原创 kafka原理系列之(六)如何动态修改Kafka Topic的分区副本数

一、内容简介 Kafka提供了一个工具,用于调整Topic中各个分区的复本数据。工具名称叫kafka-reassign-partitions.sh。 创建一个Topic,共2个分区,副本数为2(共2份,含原始数据):查看该Topic。分区0的Leader是1,分区1的Leader是2: 本文转载自...

2020-03-11 10:37:01 274 0

原创 kafka原理系列之(五)(如何确定Kafka分区个数)

一. Kafka的分区数是不是越多越好? 1、 分区多的优点 Kafka使用分区将topic的消息打算到多个分区分布保存在不同的broker上,实现了producer和consumer消息处理的高吞吐量。 Kafka的producer和consumer都可以多线程地并行操作,而每个线程处理的是一个...

2020-03-10 18:05:29 90 0

原创 Linux的实用命令(六)之压缩和解压

一、Linux上文件解压方式 1、.bz2文件 bzip2(选项)(参数):用于创建和管理.bz2格式的压缩包。 -c 将压缩与解压缩的结果送到标准输出 -d 执行解压缩 -f 在压缩或解压缩时,若输出文件与现有文件名相同,预设不会覆盖现有文件;使用该选项,可覆盖文件 -k 在压缩或解压缩后...

2020-01-03 15:24:31 51 0

原创 HIVE实战处理(一)统计用户连续登录天数

1、根据附件创建临时表 drop table temp.tmp_test_room; create table temp.tmp_test_room ( roomid string, pt_month string , ...

2019-11-06 09:22:00 641 0

原创 python好用技能点

1、pydoc python中pydoc模块可以从python代码中获取docstring,然后生成帮助信息。 windows环境下,命令行运行: python -m pydoc input Linux环境下直接运行: pydoc input pydoc还能够生成HTML输出,既可以将HTML帮助...

2019-10-18 14:30:36 40 0

原创 Linux的实用命令(五)之文件搜索和yum/rpm

文件搜索 find / -name file1 从 ‘/’ 开始进入根文件系统搜索文件和目录 find / -user user1 搜索属于用户 ‘user1’ 的文件和目录 find /home/user1 -name *.bin 在目录 ‘/ home/user1’ 中搜索带有’.bin’ 结...

2019-10-11 16:58:24 73 0

原创 数据仓库(三)功能流程介绍

数据仓库技术 https://blog.csdn.net/zzq900503/article/details/78405958#commentBox 从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Ac...

2019-09-04 17:54:28 193 0

原创 数据分析模型

常见数据分析模型较多,列举其中常见的八种供楼主参考: 1、行为事件分析 行为事件分析法来研究某行为事件的发生对企业组织价值的影响以及影响程度。企业借此来追踪或记录的用户行为或业务过程,如用户注册、浏览产品详情页、成功投资、提现等,通过研究与事件发生关联的所有因素来挖掘用户行为事件背后的原因、交互影...

2019-09-04 16:38:41 66 0

原创 Python常用模块(一)pandas

Pandas模块,我觉得掌握这些就够用了! 一、数据读写 案例演示 # 读入MySQL数据库数据 # 导入第三方模块 import pymysql # 连接MySQL数据库 conn = pymysql.connect(host='localhost', user=...

2019-09-04 11:14:43 92 0

原创 HIVE优化操作总结

hive数据倾斜优化策略 1、Map端部分聚合 (mapjoin) set hive.map.aggr=true 默认是true。 例子: select gender,count(1) from user group by gender; 适合场景:groupby_key是不散列,首先对map...

2019-08-30 18:34:22 51 0

原创 python的实用开发工具jupyter和pycharm

一、Jupyter Notebook 的失败运行 之前是安装了jupyter,直接启动之后运行代码,没有结果。 后来知道是只是安装了jupyter ,没有安装notebook 二、 Jupyter Notebook 的失败运行 由于上面的安装缺失,下面重新介绍下安装过程。 1、pip方式安装J...

2019-08-30 10:24:20 504 0

原创 Python的使用总结

1、 改变print自动换行 template = "零一二三四五六七八九" s = input() for c in s: print(template[eval(c)], end="") print()中增加end=""参...

2019-08-29 19:50:30 137 0

原创 python的高级特性总结

Python高级特性使用总结: 1、在Python中,函数的参数可以有默认值,也支持使用可变参数, 所以Python并不需要像其他语言一样支持函数的重载,在参数名前面的*表示args是一个可变参数 2、python里面的分片,针对list,tumple和numpy都适用 slice(1, 3)相当...

2019-08-23 10:37:43 49 0

原创 网络工具系列之(一)MAC和window通过有线连接传输文件

MAC和window通过有线连接传输文件,以下是ssh命令行的方式。 1、打开windows的命令行 win+R 输入ipconfig 找到对应的ip地址。 2、在mac终端命令行上输入ifconfig 之后两边双向ping 对方的ip,看能否ping 通。 3、打开mac的远程登录 1、首先...

2019-08-22 11:43:58 503 0

原创 vim的常用操作技巧

vim命令总结 记得实操一遍加深记忆 1.删除字符 要删除一个字符,只需要将光标移到该字符上按下"x"。 2.删除一行 删除一整行内容使用"dd"命令。删除后下面的行会移上来填补空缺。 3.删除换行符 在Vim中你可以把两行合并为一行,也就是说两行之间的换行...

2019-08-21 17:05:45 44 0

原创 Nodepad++的常用文本操作技巧

Notepad++相关的功能和技巧总结 DOWNLOAD Nodepad++ 1.Base64编解码 编码: 插件§ -> MIME Tools -> Base64 Encode 解码: 插件§ -> MIME Tools -> Base64 Decode 详细操作步骤...

2019-08-21 16:36:45 308 0

原创 python常用的模块

一、date 在一个hive使用python脚本进行etl的代码中感受到了各个语言的相通性。 对于使用python语言的小伙伴去做etl工程师也丝毫无压力。 时间戳转成标准时间 1、时间转换 1)输出格式是yyyy-MM-dd HH:mm:ss datetime.datetime.fromti...

2019-08-15 16:06:31 44 0

原创 Linux的实用命令(四)之替换sed命令和特殊字符处理

Linux中的特殊字符的处理 1、windows和linux环境下的换行符号处理: Windows系统中有如下等价关系: 用enter换行 <====> 程序写\n <====> 真正朝文件中写\r\n(0x0d0x0a) <====>程序真正读取的是\...

2019-08-15 14:01:29 2350 0

原创 Linux用到的大数据相关命令

5、大数据相关的命令 1、hdfs文件down到本地 hadoop dfs -getmerge hdfs_path/* nas_path/temp 2、远程集群复制 distcp /跨机器复制 scp 1)本来是远程复制的 hadoop distcp 复制的地址1 复制目的地地址2 因为两...

2019-08-15 10:41:52 65 0

转载 大数据开发的路线

大数据开发的一般学习路线 经常有初学者在博客和QQ问我,自己想往大数据方向发展,该学哪些技术,学习路线是什么样的,觉得大数据很火,就业很好,薪资很高。如果自己很迷茫,为了这些原因想往大数据方向发展,也可以,那么我就想问一下,你的专业是什么,对于计算机/软件,你的兴趣是什么?是计算机专业,对操作系统...

2019-07-22 10:00:27 227 0

原创 HIVE数据处理(一)文件导入到hive的表的几种方式以及删除表异常处理

文件导入到hive的表的几种方式 1、普通的hive表 1)本地文件加载到hive load data local inpath ‘/home/xuyou/sqoop/imp_bbs_product_sannpy_’ into table default.hive_bbs_product_snap...

2019-07-18 13:59:15 1117 0

原创 python学习资料大推荐

一.文档教程 廖雪峰python教程 廖老师的教程我相信不用说了吧,每个学习python的人或多或少都听说过他,对我的帮助很大。 2.python中文学习大本营 名字叫做python中文学习大本营,但是里面除了python基础教程外,更多的是flask框架的扩展文档,适合每个小伙伴查阅 3.c...

2019-06-12 10:54:02 877 0

原创 python常用的函数

一、python内置函数 1、filter 和list 一个列表: fruits = ['orange', 'peach', 'durian', 'watermelon'] print(fruits[slice(1, ...

2019-05-22 10:36:53 88 0

原创 喜欢的个人技术总结网站

一、开发: 二、运维: zabbix从放弃到入门: http://www.zsythink.net/

2019-04-29 09:55:23 139 0

提示
确定要删除当前文章?
取消 删除