iiizmy-CSDN博客

原创 DD-MON-YY日期格式在插入和更新时出错

今天在使用DD-MON-YY日期格式插入数据时，提示无效的月份。问题原因：后来发现是因为使用的日期语言不是英文，所以当使用MON时会报错。解决方法：alter session set NLS_DATE_LANGUAGE=‘American’;将日期语言改为American，重新插入成功。（修改为简体中文：alter session set NLS_DATE_LANGUAGE=‘SIM...

2019-07-18 17:20:16 986

原创 orcle的各种时间取值

Select to_char(sysdate,‘ss’) from dual取当前时间秒部分Select to_char(sysdate,‘mi’) from dual取当前时间分钟部分Select to_char(sysdate,‘HH24’) from dual取当前时间秒小时部分Select to_char(sysdate,‘DD’) from dual取当前时间日期部分Select...

2019-07-18 16:48:44 216

原创 Orcle Group By字句的增强

Orcle中支持对Group BY字句增强，有三种分别是：ROLLUP、CUBE、GROUPING和GROUPING SETS1.ROLLUP在Group By 中使用Rollup 产生常规分组汇总行以及分组小计：SELECT department_id, job_id, SUM(salary) FROM employees WHERE department_id...

2019-07-15 09:38:06 179

原创 Sql中in()和exists()的区别

in()适合B表比A表数据小的情况exists()适合B表比A表数据大的情况当A表数据与B表数据一样大时,in与exists效率差不多,可任选一个使用.

2019-07-15 09:13:26 134

原创 Hbase读写数据流程

HBase 读数据流程1.HRegionServer 保存着meta 表以及表数据，要访问表数据，首先 Client 先去访问zookeeper，从 zookeeper 里面获取meta 表所在的位置信息，即找到这个meta 表在哪个HRegionServer 上保存着。2.接着Client 通过刚才获取到的 HRegionServer 的 IP 来访问 Meta 表所在的HRegio...

2019-01-21 21:54:42 208

原创 hive调优

1.fetch抓取Fetch 抓取是指，Hive 中对某些情况的查询可以不必使用 MapReduce 计算。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more，老版本 hive默认是 minimal，该属性修改为 more 以后，在全局查找、字段查找、limit 查找等都不走mapreduce。set h...

2019-01-21 20:51:16 167

原创 hive和数据库比较

1.查询语言由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性设计了类 SQL 的查询语言HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。2.数据存储位置Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。3.数据更新由于 Hive 是针对数据仓库应用...

2019-01-21 19:19:53 118

原创 Git快速入门

什么是版本控制工具？有哪些版本控制工具?版本控制工具是项目开发中必不可少的，以此进行的版本控制可以确保在软件项目开发中，不同的开发人员所涉及的同一文档都得到更新。项目源代码的版本管理工具中，比较常用的主要有：CVS、SVN、Git 和 MercurialGit的诞生同生活中的许多伟大事件一样，Git 诞生于一个极富纷争大举创新的年代。1991年，Linus创建了开源的Linux，并且有着为...

2018-12-04 21:53:19 210 2

原创 Flume常用source、sink

基本概念1.什么叫flume？　　分布式，可靠的大量日志收集、聚合和移动工具。2.events　　事件，是一行数据的字节数据，是flume发送文件的基本单位。3.flume配置文件　　重命名flume-env.sh.template为flume-env.sh，并添加[export JAVA_HOME=/soft/jdk]4.flume的Agent　　source //从哪儿读数据。...

2018-11-30 20:30:24 349 2

原创 Zookeeper集群搭建

一、环境需求安装jdk二、Zookeeper集群部署1.解压安装包[hadoop@hadoop01 tools]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /home/hadoop/install/2.修改名字[hadoop@hadoop01 install]$ mv zookeeper-3.4.10/ zookeeper3.配置环境变量[hado...

2018-11-30 20:15:01 228 3

原创 kafka集群搭建

一、环境需求1.已搭建zookeeper集群2.jdk环境二、kafka集群部署1.解压安装包[hadoop@hadoop01 tools]$ tar -zxvf kafka_2.11-0.11.0.2.tgz -C /home/hadoop/install/2.修改名字[hadoop@hadoop01 install]$ mv kafka_2.11-0.11.0.2/ kafka...

2018-11-30 19:40:31 119 1

转载 Java中replace和replaceall的区别

1.replace的参数是char和CharSequence,既可以支持字符替换，也可以支持字符串替换。2.replaceall参数是regex, replacement，regex表示是正则表达式。String str = “wel2come3Souhe”; String str1 = str.replace(“e”, “E”);String str3 = str.replace(‘...

2018-11-29 21:15:42 677 1

1. 新建一个主题（Topic）./bin/kafka-topics.sh --create --zookeeper 192.168.14.131:2181,192.168.14.131:2182,192.168.14.131:2183 --partition 3 --replication-factor 3 --topic test032. 查询语句./bin/kafka-topics.s...

2018-11-28 20:19:00 140 1

原创 Spark性能调优

一、分配更多资源1、分配哪些资源？Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量2、在哪里分配这些资源？在生产环境中，提交spark作业时，用的spark-submit shell脚本，里面调整对应的参数：/usr/local/spark/bin/spark-submit –class cn.spar...

2018-11-28 20:12:38 166 1

原创 HADOOP全分布部署

1、克隆并启动虚拟机（集群为奇数台）2、修改静态IP（1）vim /etc/udev/rules.d/70-persistent-net.rules删除eth0行，将eth1修改为eth0，同时复制MAC地址（2）vim /etc/sysconfig/network-scripts/ifcfg-eth0修改IP、网关、DNS、BOOTPROTO=static、ONBOOT=yes（3）...

2018-11-28 19:42:16 383 1

原创 MapRecuce优化方案

一.数据输入1.使用 Hadoop Archive或二进制文件合并小文件2.采用CombineTextInputFormat作为输入3.开启JVM重用二.Map阶段1.减小溢写次数2.减小合并次数三.Reduce阶段1.合理设置map和reduce次数2.设置map reduce共存3.规避使用reduce4.合理设置reduce的buffer四.Io传输1.采用数据压缩...

2018-11-28 19:24:09 172 1

原创 SparkStreaming读Kafka- Couldn't find leader offsets for Set([tt,0], [tt,1], [tt,2])

在运行SparkStreaming程序时，出现了这样的错Couldn’t find leader offsets for Set([tt,0], [tt,1], [tt,2])解决方法：在kafka中的server.prorerties中配置重启kafka即可

2018-11-21 09:07:22 1863 2

转载 SparkStreaming读Kafka- Couldn't find leaders for Set

在运行SparkStreaming程序时，出现了这样的错Couldn’t find leaders for Set([tt,1], [tt,2]))这个异常意思是Spark找不到partition的Leader。查看监控后发现，在异常发生的时间点，有一个Broker挂掉了。可是对应Topic的replica设置的2，就算挂掉一个，应该有replica顶上啊。后来发现，这是由于存在Partiti...

2018-11-21 09:04:34 639

原创 hadoop集群时间同步

同步方式选择一个机器，作为时间服务器（这里选择hadoop01），所有的机器与这台集群时间进行定时的同步，比如，每隔十分钟，同步一次时间。所需工具时间同步服务器有两个：ntpd和ntpdatp，虽然使用二者都能达到时间同步的目的，但是使用之前得弄清楚一个问题，ntpd与ntpdate在更新时间时有什么区别。ntpd不仅仅是时间同步服务器，他还可以做客户端与标准时间服务器进行同步时间，而且是平...

2018-11-21 09:02:02 400 1

原创 JAVA 实现快速排序

高效的分治排序快速排序是冒泡排序的改进版，是目前已知的最快的排序方法。该排序算法的基本思想是：1．先从数列中取出一个数作为基准数。2．分区过程，将比这个数大的数全放到它的右边，小于或等于它的数全放到它的左边。3．再对左右区间重复第二步，直到各区间只有一个数。优点：极快，数据移...

2018-11-21 08:50:53 548 1

weixin_42376454的博客