- 博客(20)
- 收藏
- 关注
原创 DD-MON-YY日期格式在插入和更新时出错
今天在使用DD-MON-YY日期格式插入数据时,提示无效的月份。问题原因:后来发现是因为使用的日期语言不是英文,所以当使用MON时会报错。解决方法:alter session set NLS_DATE_LANGUAGE=‘American’;将日期语言改为American,重新插入成功。(修改为简体中文:alter session set NLS_DATE_LANGUAGE=‘SIM...
2019-07-18 17:20:16 986
原创 orcle的各种时间取值
Select to_char(sysdate,‘ss’) from dual取当前时间秒部分Select to_char(sysdate,‘mi’) from dual取当前时间分钟部分Select to_char(sysdate,‘HH24’) from dual取当前时间秒小时部分Select to_char(sysdate,‘DD’) from dual取当前时间日期部分Select...
2019-07-18 16:48:44 216
原创 Orcle Group By字句的增强
Orcle中支持对Group BY字句增强,有三种分别是:ROLLUP、CUBE、GROUPING和GROUPING SETS1.ROLLUP在Group By 中使用Rollup 产生常规分组汇总行 以及分组小计:SELECT department_id, job_id, SUM(salary) FROM employees WHERE department_id...
2019-07-15 09:38:06 179
原创 Sql中in()和exists()的区别
in()适合B表比A表数据小的情况exists()适合B表比A表数据大的情况当A表数据与B表数据一样大时,in与exists效率差不多,可任选一个使用.
2019-07-15 09:13:26 134
原创 Hbase读写数据流程
HBase 读数据流程1.HRegionServer 保存着meta 表以及表数据,要访问表数据,首先 Client 先去访问zookeeper,从 zookeeper 里面获取meta 表所在的位置信息,即找到这个meta 表在哪个HRegionServer 上保存着。2.接着Client 通过刚才获取到的 HRegionServer 的 IP 来访问 Meta 表所在的HRegio...
2019-01-21 21:54:42 208
原创 hive调优
1.fetch抓取Fetch 抓取是指,Hive 中对某些情况的查询可以不必使用 MapReduce 计算。在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 more 以后,在全局查找、字段查找、limit 查找等都不走mapreduce。set h...
2019-01-21 20:51:16 167
原创 hive和数据库比较
1.查询语言由于 SQL 被广泛的应用在数据仓库中,因此,专门针对 Hive 的特性设计了类 SQL 的查询语言HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。2.数据存储位置Hive 是建立在 Hadoop 之上的,所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。3.数据更新由于 Hive 是针对数据仓库应用...
2019-01-21 19:19:53 118
原创 Git快速入门
什么是版本控制工具?有哪些版本控制工具?版本控制工具是项目开发中必不可少的,以此进行的版本控制可以确保在软件项目开发中,不同的开发人员所涉及的同一文档都得到更新。项目源代码的版本管理工具中,比较常用的主要有:CVS、SVN、Git 和 MercurialGit的诞生同生活中的许多伟大事件一样,Git 诞生于一个极富纷争大举创新的年代。1991年,Linus创建了开源的Linux,并且有着为...
2018-12-04 21:53:19 210 2
原创 Flume常用source、sink
基本概念1.什么叫flume? 分布式,可靠的大量日志收集、聚合和移动工具。2.events 事件,是一行数据的字节数据,是flume发送文件的基本单位。3.flume配置文件 重命名flume-env.sh.template为flume-env.sh,并添加[export JAVA_HOME=/soft/jdk]4.flume的Agent source //从哪儿读数据。...
2018-11-30 20:30:24 349 2
原创 Zookeeper集群搭建
一、环境需求安装jdk二、Zookeeper集群部署1.解压安装包[hadoop@hadoop01 tools]$ tar -zxvf zookeeper-3.4.10.tar.gz -C /home/hadoop/install/2.修改名字[hadoop@hadoop01 install]$ mv zookeeper-3.4.10/ zookeeper3.配置环境变量[hado...
2018-11-30 20:15:01 228 3
原创 kafka集群搭建
一、环境需求1.已搭建zookeeper集群2.jdk环境二、kafka集群部署1.解压安装包[hadoop@hadoop01 tools]$ tar -zxvf kafka_2.11-0.11.0.2.tgz -C /home/hadoop/install/2.修改名字[hadoop@hadoop01 install]$ mv kafka_2.11-0.11.0.2/ kafka...
2018-11-30 19:40:31 119 1
转载 Java中replace和replaceall的区别
1.replace的参数是char和CharSequence,既可以支持字符替换,也可以支持字符串替换。2.replaceall参数是regex, replacement,regex表示是正则表达式。String str = “wel2come3Souhe”; String str1 = str.replace(“e”, “E”);String str3 = str.replace(‘...
2018-11-29 21:15:42 677 1
原创 kafka常用命令
1. 新建一个主题(Topic)./bin/kafka-topics.sh --create --zookeeper 192.168.14.131:2181,192.168.14.131:2182,192.168.14.131:2183 --partition 3 --replication-factor 3 --topic test032. 查询语句./bin/kafka-topics.s...
2018-11-28 20:19:00 140 1
原创 Spark性能调优
一、分配更多资源1、分配哪些资源?Executor的数量每个Executor所能分配的CPU数量每个Executor所能分配的内存量Driver端分配的内存数量2、在哪里分配这些资源?在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数:/usr/local/spark/bin/spark-submit –class cn.spar...
2018-11-28 20:12:38 166 1
原创 HADOOP全分布部署
1、克隆并启动虚拟机(集群为奇数台)2、修改静态IP(1)vim /etc/udev/rules.d/70-persistent-net.rules删除eth0行,将eth1修改为eth0,同时复制MAC地址(2)vim /etc/sysconfig/network-scripts/ifcfg-eth0修改IP、网关、DNS、BOOTPROTO=static、ONBOOT=yes(3)...
2018-11-28 19:42:16 383 1
原创 MapRecuce优化方案
一.数据输入1.使用 Hadoop Archive或二进制文件合并小文件2.采用CombineTextInputFormat作为输入3.开启JVM重用二.Map阶段1.减小溢写次数2.减小合并次数三.Reduce阶段1.合理设置map和reduce次数2.设置map reduce共存3.规避使用reduce4.合理设置reduce的buffer四.Io传输1.采用数据压缩...
2018-11-28 19:24:09 172 1
原创 SparkStreaming读Kafka- Couldn't find leader offsets for Set([tt,0], [tt,1], [tt,2])
在运行SparkStreaming程序时,出现了这样的错Couldn’t find leader offsets for Set([tt,0], [tt,1], [tt,2])解决方法:在kafka中的server.prorerties中配置重启kafka即可
2018-11-21 09:07:22 1863 2
转载 SparkStreaming读Kafka- Couldn't find leaders for Set
在运行SparkStreaming程序时,出现了这样的错Couldn’t find leaders for Set([tt,1], [tt,2]))这个异常意思是Spark找不到partition的Leader。查看监控后发现,在异常发生的时间点,有一个Broker挂掉了。可是对应Topic的replica设置的2,就算挂掉一个,应该有replica顶上啊。后来发现,这是由于存在Partiti...
2018-11-21 09:04:34 639
原创 hadoop集群时间同步
同步方式选择一个机器,作为时间服务器(这里选择hadoop01),所有的机器与这台集群时间进行定时的同步,比如,每隔十分钟,同步一次时间。所需工具时间同步服务器有两个:ntpd和ntpdatp,虽然使用二者都能达到时间同步的目的,但是使用之前得弄清楚一个问题,ntpd与ntpdate在更新时间时有什么区别。ntpd不仅仅是时间同步服务器,他还可以做客户端与标准时间服务器进行同步时间,而且是平...
2018-11-21 09:02:02 400 1
原创 JAVA 实现快速排序
高效的分治排序快速排序是冒泡排序的改进版,是目前已知的最快的排序方法。 该排序算法的基本思想是:1.先从数列中取出一个数作为基准数。2.分区过程,将比这个数大的数全放到它的右边,小于或等于它的数全放到它的左边。3.再对左右区间重复第二步,直到各区间只有一个数。优点:极快,数据移...
2018-11-21 08:50:53 548 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人