自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Just Do IT

但行好事,莫问前程!

  • 博客(12)
  • 资源 (3)
  • 收藏
  • 关注

原创 【PL/SQL】测试函数时,日期参数的输入格式

如果在PL/SQL中测试,输入格式为xxxx/xx/xx;如果使用select function_name(xx,xx) from dual; 测试函数时,日期参数需要使用to_date('xxxx-xx-xx','YYYY-MM-DD') 或者date'xxxx-xx-xx' 进行类型转换。下面是一个函数例子,函数中V_QRP_RQ参数类型为date:--创建测试表,并插入数据CR

2018-01-31 11:25:43 4904

原创 【Kettle】crt中运行spoon.sh报错

安装完成kettle,启动spoon.sh时报错如下:[root@kettle data-integration]# ./spoon.sh org.eclipse.swt.SWTError: No more handles [gtk_init_check() failed] at org.eclipse.swt.SWT.error(Unknown

2018-01-27 21:17:27 3134

原创 【Hive】命令行提示符中显示当前所在数据库

Hive 0.8.0之后的版本开始支持此功能,可以在命令行中显示当前所在的数据库。设置命令为:set hive.cli.print.current.db=true#设置前hive> use default;OKTime taken: 0.102 secondshive> # 设置后hive> set hive.cli.print.current.db=true;hive (

2018-01-27 15:12:38 2461

原创 【Hive】Caused by: MetaException(message:Hive metastore database is not initialized. Please use schema

启动Hive报错如下:Caused by: MetaException(message:Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType ...) to create the schema. If needed, don't for

2018-01-23 00:24:46 1254 1

原创 【Hadoop】HDFS基本命令

1. 创建目录[grid@master ~]$ hadoop fs -mkdir /test2. 查看文件列表[grid@master ~]$ hadoop fs -ls /Found 3 itemsdrwxr-xr-x - grid supergroup 0 2018-01-08 04:37 /testdrwx------ - grid supergroup

2018-01-17 22:11:38 389

原创 【Hadoop】同步集群时间

转载:hadoop集群时间同步测试环境:192.168.217.130 master master.hadoop192.168.217.131 node1 node1.hadoop192.168.217.132 node2 node2.hadoop一、设置master服务器时间查看本地时间和时区[root@master ~]# dateMon Feb 27 09:54:09 CST 2017选择时

2018-01-17 21:14:42 1683

原创 【Hadoop】MapReduce

MapReduce是一个分布式计算框架,支持编写程序处理大数据集。Hadoop 0.20.0以及之前版本,MapReduce由JobTracker和TaskTracker组成。JobTracker是运行在主节点上的后台进程,监听各个TaskTracker发来的心跳,包括资源使用情况和任务运行情况等信息。TaskTracker是运行在从节点上的进程,它一方面将本地节点上各个任务的状态通过心跳,周

2018-01-09 22:49:00 327

原创 【Hadoop】HDFS数据复制

为了保证存储文件的可靠性,HDFS把文件分解成多个序列块,并保存数据块的多个副本。这对容错非常重要,当文件的一个数据块损坏时,可以从其他节点读取数据块副本。HDFS有“机架感知”策略放置文件副本,因为同一机架的带宽大于跨机架的带宽,所以在一个复制因子默认为3的系统中,HDFS会把备份一份保存在本地节点,另外一份保存在同一机架的其他节点,最后一份保存在其他机架节点,这样既保证了文件安全性,又能提高写

2018-01-08 23:18:35 4207

原创 【Hadoop】HDFS三组件:NameNode、SecondaryNameNode和DataNode

HDFS主要由三个组件构成,分别是NameNode、SecondaryNameNode和DataNode,其中NameNode和SecondaryNameNode运行在master节点上,DataNode运行在slave节点上。HDFS架构如下图:1. NameNodeNameNode管理HDFS文件系统的命名空间,它维护文件系统树及树中的所有文件和目录。同时NameNode也

2018-01-08 22:28:00 4885

原创 【Hadoop】Hadoop生态圈基本组件介绍

1. HDFSHDFS(Hadoop分布式文件系统)源于Google在2003年10月发表的GFS论文,HDFS是GFS的实现。HDFS通过流式数据访问,适合大数据集访问的应用程序。HDFS有一次写入多次读取的机制,数据已块的形式,同时分布在集群的不同物理机器上。2. MapReduceMapReduce(分布式计算框架)源于Google在2004年12月发表的MapReduce论文,

2018-01-07 09:59:58 4190

原创 【Hadoop】安装Apache Hadoop

一、环境介绍本篇博客介绍手工安装Apache Hadoop的过程,建立VMware上建立三台Linux虚拟机,每台硬盘20G,内存1G。1. 环境版本操作系统:CentOS 6.7Java版本:jdk-7u79-linux-x64.tarHadoop版本:hadoop-2.7.52. 主机规划192.168.56.101 master192.

2018-01-05 23:26:26 481

原创 【数据仓库】大数据定义

2012年Gartner公司将大数据定义为3V,即:大容量(Volume)、高流速(Velocity)、多样化(Variety),后来人们在3V基础上增加新的V-"Veracity",即真实性。现在人们普遍认可的大数据是具有4V,即:Volume、Velocity、Variety、Veracity,也就是大、快、多、真。1. Volume(生成和存储的数据量大)随着技术的发展,人们收集信息

2018-01-01 11:21:17 950

SOWC 2014 Stat Tables_Table 9.xlsx

《Python 数据处理》第四章Excel实验文件,用于测试童工和童婚数量分析。

2018-05-15

population_data.json

用Python练习做世界人口地图的文件。《Python编程:从入门到实践》,数据可视化经典案例所需文件。

2017-10-19

Python Indent插件

此插件用于解决python自动缩进问题。 1. 解压压缩包 2. 把Python Indent文件夹和Python Indent.dll放在notepad++安装目录的plugins文件夹下 3. 重启notepad++ 4. 依次点击 插件--Python Indent--Enable,将Enable打钩 5. 问题解决

2017-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除