仰望星空的我
码龄10年
关注
提问 私信
  • 博客:537,043
    社区:2
    537,045
    总访问量
  • 3
    原创
  • 592,584
    排名
  • 99
    粉丝
  • 0
    铁粉

个人简介:仰望星空,脚踏实地。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2014-09-19
博客简介:

maenlai0086的博客

查看详细资料
个人成就
  • 获得100次点赞
  • 内容获得34次评论
  • 获得574次收藏
创作历程
  • 200篇
    2019年
  • 74篇
    2018年
TA的专栏
  • kettle数据接口调用
  • 软件工程开发
  • 数据仓库平台建设
    29篇
  • linux编程
    2篇
  • kettle ETL数据集成开发
    5篇
  • taskctl任务调度与监控
  • kettle调优
    4篇
  • kettle集群分布式
  • kettle与hadoop
  • 数据同步
  • kettle增量数据同步
    1篇
  • kettle日期格式处理
  • kettle变量参数
    11篇
  • kettle sql动态查询
  • kettle sql语句顺序执行
  • kettle循环
    5篇
  • kettle原理机制
  • java实现kettle二次开发
    2篇
  • java调用kettle
  • kettle邮件发送
  • kettle流查询与映射
  • kettle乱码
  • kettle与js
    1篇
  • kettle错误处理
  • kettle常见问题
    6篇
  • kettle任务调度
    4篇
  • kettle学习总结
    1篇
  • kettle数据库连接
  • kettle数据库迁移
    1篇
  • kettle组件学习
    1篇
  • ETL工具
  • kettle字符串处理
  • kettle数据校验
    4篇
  • kettle连接
  • 数据库
    1篇
  • kettle插件二次开发
    1篇
  • kettle post请求
  • kettle解析xml与json格式文件
  • kettle日志
  • kettle与维度
  • kettle映射
    2篇
  • kettle分组
  • kettle行列转换
  • 索引
  • kettle插件开发
    4篇
  • java开发
    1篇
  • 接口设计
  • kettle与mongdb
    1篇
  • kettle与javascript操作数据库
  • kettle结合javascript脚本编程
  • kettle抽取oracle数据库数据
    2篇
  • linux环境下kettle部署
  • kettle源代码部署
    7篇
  • kettle自定义java类开发
    6篇
  • kettle rest api
  • kettle与hadoop集成开发
    8篇
  • oracle数据库lob字段对象处理
    1篇
  • DataX数据同步
  • oracle数据库
    10篇
  • python web
  • kettle异常处理
  • 开发框架
  • 数据仓库
    2篇
  • 微软BI
    1篇
  • SSIS
    1篇
  • oracle ogg
    2篇
  • oracle 实时数据同步
    1篇
  • 微软BI数据仓库
  • SSAS
  • 大数据平台规划与建设
  • 架构师
  • 职业发展规划
  • 面试
  • mysql数据库
    4篇
  • hive sql数据分析
    4篇
  • impala sql数据分析
  • hive etl
    42篇
  • spark sql
  • Hadoop
  • mapreduce
  • shell 多线程
  • shell编程
    7篇
  • Impala优化
    1篇
  • impala sql
    2篇
  • 算法
  • Github
  • powerdesigner工具建模
    1篇
  • 深度学习tensorflow
  • python编程
  • BI 大数据
  • 数据仓库实践
    1篇
  • 大数据平台技术架构
    2篇
  • 数据结构与算法
    1篇
  • mvn项目开发
    13篇
  • spark开发环境部署
    7篇
  • kettle大数据应用开发
    4篇
  • 企业大数据仓库建设实践
    2篇
  • 大数据数据倾斜
    15篇
  • hadoop原理深入学习
    8篇
  • 大数据面试试题汇总
    2篇
  • spark高级编程开发
    5篇
  • kettle分区
  • 大数据开发技术组件
  • drools规则引擎
    1篇
  • 软件开发
    1篇
  • BI数据报表
    5篇
  • impala数据库
    15篇
  • Gitlab工具使用
    2篇
  • 数据仓库建模
    7篇
  • powerdesigner数据建模
兴趣领域 设置
  • 大数据
    flink
  • 人工智能
    opencv语音识别计算机视觉机器学习深度学习神经网络自然语言处理tensorflowpytorch图像处理nlp数据分析
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

342人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Kettle性能优化

Kettle性能优化是一个系统工程,不仅涉及工具本身的优化,更涉及ETL工具之外的诸多因素,比如,ETL要读取数据库,那么目标DMBS的性能,SQL语句,网络等相关因素都影响到执行效率。根据Kettle对数据ETL的过程性能调优,主要取决于三个因素:上游渠道,工具的大小与数量,下游渠道。一 Kettle调优调整JVM大小进行性能优化,修改Kettle定时任务中的Kitchen或Pan或Sp...
转载
发布博客 2019.10.11 ·
2024 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

Kettle性能调优汇总

性能调优在整个工程中是非常重要的,也是非常有必要的。但有的时候我们往往都不知道如何对性能进行调优。其实性能调优主要分两个方面:一方面是硬件调优,一方面是软件调优。本章主要是介绍Kettle的性能优化及效率提升。一、Kettle调优1、调整JVM大小进行性能优化,修改Kettle定时任务中的Kitchen或Pan或Spoon脚本。 修改脚本代码片段 set ...
转载
发布博客 2019.10.11 ·
571 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

impala与hive的比较以及impala的有缺点

最近读的几篇关于impala的文章,这篇良心不错:https://www.biaodianfu.com/impala.html(本文截取部分内容) Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎...
转载
发布博客 2019.07.25 ·
365 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive按当天日期建立分区表 | 动态往日期分区插入数据

hive建立分区表,以当天日期(“2014-08-15”)作为分区依据,hql如下:CREATE EXTERNAL TABLE IF NOT EXISTS product_sell(category_id BIGINT,province_id BIGINT,product_id BIGINT,price DOUBLE,sell_num BIGINT)PARTITIONED BY ...
转载
发布博客 2019.07.18 ·
7338 阅读 ·
1 点赞 ·
1 评论 ·
5 收藏

Hive分桶表及抽样查询

抽样查询对于非常大的数据集,用户不需要全部查询的结果,只需要一个代表性的查询结果时,可以通过对表进行分桶抽样。Hive分桶表先介绍一下Hive桶。桶是比表或分区更为细粒度的数据范围划分。针对某一列进行桶的组织,对列值哈希,然后除以桶的个数求余,决定将该条记录存放到哪个桶中。好处:1、获得更高的查询处理效率。2、使抽样更高效。创建带桶的table:create tab...
转载
发布博客 2019.07.18 ·
376 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

hive 中的二级分区表和动态分区表

二级分区表/管理表:create table emp_part1(empno int,empname string,empjob string,mgrno int,birthday string,salary float,bonus float,deptno int)partitioned by (day string,hour string)r...
转载
发布博客 2019.07.18 ·
689 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive的分区表和分桶表的区别

1.Hive分区。是指按照数据表的某列或某些列分为多个区,区从形式上可以理解为文件夹,比如我们要收集某个大型网站的日志数据,一个网站每天的日志数据存在同一张表上,由于每天会生成大量的日志,导致数据表的内容巨大,在查询时进行全表扫描耗费的资源非常多。那其实这个情况下,我们可以按照日期对数据表进行分区,不同日期的数据存放在不同的分区,在查询时只要指定分区字段的值就可以直接从该分区查找。...
转载
发布博客 2019.07.18 ·
195 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive总结2(分区+分桶+查询)

Hive是一个数据仓库 ,保存的半结构化数据 文本。Hive不支持:事务,不支持索引(但可以通过分桶实现快速的查询,hash)类似的分布的nosql(Not Only Sql数据库:hbase - Phoinex(凤凰)Hive的功能,就是做mapreduce。分区:就是在可控制的情况下,将数据放到不同的目录下。减小查询的范围。 并不能加快查询的速度。还是要查询所...
转载
发布博客 2019.07.18 ·
1225 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive 分区表和二级分区表的基本操作

Hive分区就是在HDFS上创建独立的文件夹,该文件夹下是该分区的所有的数据文件。Hive中的分区就是分目录,把一个大的数据集根据业务需要分割成小的数据集。在查询时通过WHERE子句中的表达式选择来查询所需要的指定分区,这样的查询效率会提高很多。1、引入分区表最终呈现的效果就是在HDFS上按照分区的目录存储文件:/user/hive/warehose/log/201801/01/dep...
转载
发布博客 2019.07.18 ·
1468 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive修改表名,列名,列注释,表注释,增加列,调整列顺序,属性名等操作

Alter Table 语句Hive修改表名,列名,列注释,表注释,增加列,调整列顺序,属性名等操作它是在Hive中用来修改的表。语法声明接受任意属性,我们希望在一个表中修改以下语法。 ALTER TABLE name RENAME TO new_name ALTER TABLE name ADD COLUMNS (col_spec[, col_spec ......
转载
发布博客 2019.07.18 ·
342 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

shell中判断hive表分区是否存在

判断当日分区是否有数据,如果有执行任务,没有就退出 主要思路是如果分区存在且有数据,hdfs文件系统下的对应表分区下会有part-m-00000这个文件(不一定是这个名字,具体要用hadoop fs -ls /user/hive/warehouse/查看)temp0="part-" # 这里只取了"part-"这个字段 temp1=`hadoop fs -ls /use...
转载
发布博客 2019.07.16 ·
2396 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

在shell中如何判断HDFS中的文件目录是否存在

在Linux文件系统中,我们可以使用下面的Shell脚本判断某个文件是否存在: # 这里的-f参数判断$file是否存在 if [ ! -f "$file" ]; then   echo "文件不存在!" fi 但是我们想判断HDFS上某个文件是否存在咋办呢?别急,Hadoop内置提供了判断某个文件是否存在的命令: [iteblog@www...
转载
发布博客 2019.07.16 ·
522 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

shell脚本调用hive示例

方法一: 建立shell脚本如下run.sh如下:#!/bin/sh #参数传递 source/etc/profile; source~/.bash_profile; BASEDIR=`dirname$0` cd$BASEDIR #classpath优先当前目录 CLASSPATH=$BASEDIR ...
转载
发布博客 2019.07.16 ·
1879 阅读 ·
0 点赞 ·
1 评论 ·
7 收藏

shell中循环调用hive sql 脚本

hive-S-e'uselogdb;showtables;'>table.txtwhilereadtabledoecho$tablehive-S-e"uselogdb;showcreatetable$table"done<table.txt脚本tt.sh的内容如下:#!/bin/bashparams=$1for ...
转载
发布博客 2019.07.16 ·
2567 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

awk统计文本里某一列重复出现的次数

比如这样的场景:现在有一个文本,里面是这样的内容:NOTICE: 12-14 15:11:13: parser.* 6685 url=[http://club.pchome.net/thread_1_18_7283270___TRUE.html] get_tm=115 PAGE=15471[Z]:59066 css_tm=1043 css_res=0/4[0] CONT=3230[Z]:...
转载
发布博客 2019.07.16 ·
9299 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Linux中使用sed命令替换字符串小结

sed替换的基本语法为:sed 's/原字符串/替换字符串/'单引号里面,s表示替换,三根斜线中间是替换的样式,特殊字符需要使用反斜线”\”进行转义,但是单引号”‘”是没有办法用反斜线”\”转义的,这时候只要把命令中的单引号改为双引号就行了,例如:sed "s/原字符串包含'/替换字符串包含'/" //要处理的字符包含单引号命令中的三根斜线分隔符可以换成别的符号,这在要替换...
转载
发布博客 2019.07.16 ·
682 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Linux shell if判断语句

无论什么编程语言都离不开条件判断。SHELL也不例外。大体的格式如下:if list thendo something hereelif list thendo another thing hereelsedo something else herefi一个例子:#!/bin/shSYSTEM=`uname -s` # 获取操作系统类型,我本地是linuxif [ ...
转载
发布博客 2019.07.16 ·
721 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

在shell中判断hive查询记录数大小

用途: 根据查询到结果数量来判断,是否需要再执行下个脚本。1. 查询语句script.q脚本如下: select count(1) as count from test;2. shell脚本如下:这里注意hive语句需要包裹在``(左上角~按键)里面,然后可以把输出的结果赋值给一个变量。#!/bin/shcount=`beeline --silent=true --o...
转载
发布博客 2019.07.16 ·
1696 阅读 ·
1 点赞 ·
1 评论 ·
4 收藏

Shell脚本执行hive语句 | hive以日期建立分区表 | linux schedule程序 | sed替换文件字符串 | shell判断hdfs文件目录是否存在

#!/bin/bashsource /etc/profile;################################################### Author: ouyangyewei ## ## Content: ...
转载
发布博客 2019.07.16 ·
253 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

shell脚本判断hive表是否存在

#!/bin/bash#日志目录#shell判断表hive表是否存在#TABLE=库名.表名TABLE=dal.dal_mdn_communication_behaviorhive -e"desc $TABLE;" 2>&1 | grep 'Table not found'rtstatus=$?echo $rtstatusif [ $rtstatus -...
转载
发布博客 2019.07.16 ·
2518 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏
加载更多