自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 DD-MON-YY日期格式在插入和更新时出错

今天在使用DD-MON-YY日期格式插入数据时,提示无效的月份。问题原因:后来发现是因为使用的日期语言不是英文,所以当使用MON时会报错。解决方法:alter session set NLS_DATE_LANGUAGE=‘American’;将日期语言改为American,重新插入成功。(修改为简体中文:alter session set NLS_DATE_LANGUAGE=‘SIM...

2019-07-18 17:20:16 982

原创 orcle的各种时间取值

Select to_char(sysdate,‘ss’) from dual取当前时间秒部分Select to_char(sysdate,‘mi’) from dual取当前时间分钟部分Select to_char(sysdate,‘HH24’) from dual取当前时间秒小时部分Select to_char(sysdate,‘DD’) from dual取当前时间日期部分Select...

2019-07-18 16:48:44 192

原创 Orcle Group By字句的增强

Orcle中支持对Group BY字句增强,有三种分别是:ROLLUP、CUBE、GROUPING和GROUPING SETS1.ROLLUP在Group By 中使用Rollup 产生常规分组汇总行 以及分组小计:SELECT department_id, job_id, SUM(salary) FROM employees WHERE department_id...

2019-07-15 09:38:06 174

原创 Sql中in()和exists()的区别

in()适合B表比A表数据小的情况exists()适合B表比A表数据大的情况当A表数据与B表数据一样大时,in与exists效率差不多,可任选一个使用.

2019-07-15 09:13:26 113

原创 Hbase读写数据流程

HBase 读数据流程1.HRegionServer 保存着meta 表以及表数据,要访问表数据,首先 Client 先去访问zookeeper,从 zookeeper 里面获取meta 表所在的位置信息,即找到这个meta 表在哪个HRegionServer 上保存着。2.接着Client 通过刚才获取到的 HRegionServer 的 IP 来访问 Meta 表所在的HRegio...

2019-01-21 21:54:42 202

原创 hive调优

1.fetch抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走mapreduce。set h...

2019-01-21 20:51:16 161

原创 hive和数据库比较

1.查询语言由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。2.数据存储位置Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。3.数据更新由于 Hive 是针对数据仓库应用...

2019-01-21 19:19:53 112

原创 Git快速入门

什么是版本控制工具?有哪些版本控制工具?版本控制工具是项目开发中必不可少的,以此进行的版本控制可以确保在软件项目开发中,不同的开发人员所涉及的同一文档都得到更新。项目源代码的版本管理工具中,比较常用的主要有:CVS、SVN、Git 和 MercurialGit的诞生同生活中的许多伟大事件一样,Git 诞生于一个极富纷争大举创新的年代。1991年,Linus创建了开源的Linux,并且有着为...

2018-12-04 21:53:19 167 2

原创 Flume常用source、sink

基本概念1.什么叫flume?  分布式,可靠的大量日志收集、聚合和移动工具。2.events  事件,是一行数据的字节数据,是flume发送文件的基本单位。3.flume配置文件  重命名flume-env.sh.template为flume-env.sh,并添加[export JAVA_HOME=/soft/jdk]4.flume的Agent  source //从哪儿读数据。...

2018-11-30 20:30:24 343 2

原创 Zookeeper集群搭建

一、环境需求安装jdk二、Zookeeper集群部署1.解压安装包[hadoop@hadoop01 tools]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /home/hadoop/install/2.修改名字[hadoop@hadoop01 install]$ mv zookeeper-3.4.10/ zookeeper3.配置环境变量[hado...

2018-11-30 20:15:01 171 3

原创 kafka集群搭建

一、环境需求1.已搭建zookeeper集群2.jdk环境二、kafka集群部署1.解压安装包[hadoop@hadoop01 tools]$ tar -zxvf kafka_2.11-0.11.0.2.tgz -C /home/hadoop/install/2.修改名字[hadoop@hadoop01 install]$ mv kafka_2.11-0.11.0.2/ kafka...

2018-11-30 19:40:31 114 1

转载 Java中replace和replaceall的区别

1.replace的参数是char和CharSequence,既可以支持字符替换,也可以支持字符串替换。2.replaceall参数是regex, replacement,regex表示是正则表达式。String str = “wel2come3Souhe”; String str1 = str.replace(“e”, “E”);String str3 = str.replace(‘...

2018-11-29 21:15:42 653 1

原创 kafka常用命令

1. 新建一个主题(Topic)./bin/kafka-topics.sh --create --zookeeper 192.168.14.131:2181,192.168.14.131:2182,192.168.14.131:2183 --partition 3 --replication-factor 3 --topic test032. 查询语句./bin/kafka-topics.s...

2018-11-28 20:19:00 136 1

原创 Spark性能调优

一、分配更多资源1、分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量2、在哪里分配这些资源?在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数:/usr/local/spark/bin/spark-submit –class cn.spar...

2018-11-28 20:12:38 158 1

原创 HADOOP全分布部署

1、克隆并启动虚拟机(集群为奇数台)2、修改静态IP(1)vim /etc/udev/rules.d/70-persistent-net.rules删除eth0行,将eth1修改为eth0,同时复制MAC地址(2)vim /etc/sysconfig/network-scripts/ifcfg-eth0修改IP、网关、DNS、BOOTPROTO=static、ONBOOT=yes(3)...

2018-11-28 19:42:16 361 1

原创 MapRecuce优化方案

一.数据输入1.使用 Hadoop Archive或二进制文件合并小文件2.采用CombineTextInputFormat作为输入3.开启JVM重用二.Map阶段1.减小溢写次数2.减小合并次数三.Reduce阶段1.合理设置map和reduce次数2.设置map reduce共存3.规避使用reduce4.合理设置reduce的buffer四.Io传输1.采用数据压缩...

2018-11-28 19:24:09 166 1

原创 SparkStreaming读Kafka- Couldn't find leader offsets for Set([tt,0], [tt,1], [tt,2])

在运行SparkStreaming程序时,出现了这样的错Couldn’t find leader offsets for Set([tt,0], [tt,1], [tt,2])解决方法:在kafka中的server.prorerties中配置重启kafka即可

2018-11-21 09:07:22 1818 2

转载 SparkStreaming读Kafka- Couldn't find leaders for Set

在运行SparkStreaming程序时,出现了这样的错Couldn’t find leaders for Set([tt,1], [tt,2]))这个异常意思是Spark找不到partition的Leader。查看监控后发现,在异常发生的时间点,有一个Broker挂掉了。可是对应Topic的replica设置的2,就算挂掉一个,应该有replica顶上啊。后来发现,这是由于存在Partiti...

2018-11-21 09:04:34 632

原创 hadoop集群时间同步

同步方式选择一个机器,作为时间服务器(这里选择hadoop01),所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。所需工具时间同步服务器有两个:ntpd和ntpdatp,虽然使用二者都能达到时间同步的目的,但是使用之前得弄清楚一个问题,ntpd与ntpdate在更新时间时有什么区别。ntpd不仅仅是时间同步服务器,他还可以做客户端与标准时间服务器进行同步时间,而且是平...

2018-11-21 09:02:02 380 1

原创 JAVA 实现快速排序

高效的分治排序快速排序是冒泡排序的改进版,是目前已知的最快的排序方法。 该排序算法的基本思想是:1.先从数列中取出一个数作为基准数。2.分区过程,将比这个数大的数全放到它的右边,小于或等于它的数全放到它的左边。3.再对左右区间重复第二步,直到各区间只有一个数。优点:极快,数据移...

2018-11-21 08:50:53 524 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除