2018年01月_卜塔

12月 11月 10月 08月 07月 06月 05月 04月 03月 01月

原创【PL/SQL】测试函数时，日期参数的输入格式

如果在PL/SQL中测试，输入格式为xxxx/xx/xx；如果使用select function_name(xx,xx) from dual; 测试函数时，日期参数需要使用to_date('xxxx-xx-xx','YYYY-MM-DD') 或者date'xxxx-xx-xx' 进行类型转换。下面是一个函数例子，函数中V_QRP_RQ参数类型为date：--创建测试表，并插入数据CR

2018-01-31 11:25:43 4904

原创【Kettle】crt中运行spoon.sh报错

安装完成kettle，启动spoon.sh时报错如下：[root@kettle data-integration]# ./spoon.sh org.eclipse.swt.SWTError: No more handles [gtk_init_check() failed] at org.eclipse.swt.SWT.error(Unknown

2018-01-27 21:17:27 3134

原创【Hive】命令行提示符中显示当前所在数据库

Hive 0.8.0之后的版本开始支持此功能，可以在命令行中显示当前所在的数据库。设置命令为：set hive.cli.print.current.db=true#设置前hive> use default;OKTime taken: 0.102 secondshive> # 设置后hive> set hive.cli.print.current.db=true;hive (

2018-01-27 15:12:38 2461

原创【Hive】Caused by: MetaException(message:Hive metastore database is not initialized. Please use schema

启动Hive报错如下：Caused by: MetaException(message:Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType ...) to create the schema. If needed, don't for

2018-01-23 00:24:46 1254 1

原创【Hadoop】HDFS基本命令

1. 创建目录[grid@master ~]$ hadoop fs -mkdir /test2. 查看文件列表[grid@master ~]$ hadoop fs -ls /Found 3 itemsdrwxr-xr-x - grid supergroup 0 2018-01-08 04:37 /testdrwx------ - grid supergroup

2018-01-17 22:11:38 389

转载：hadoop集群时间同步测试环境：192.168.217.130 master master.hadoop192.168.217.131 node1 node1.hadoop192.168.217.132 node2 node2.hadoop一、设置master服务器时间查看本地时间和时区[root@master ~]# dateMon Feb 27 09:54:09 CST 2017选择时

2018-01-17 21:14:42 1683

原创【Hadoop】MapReduce

MapReduce是一个分布式计算框架，支持编写程序处理大数据集。Hadoop 0.20.0以及之前版本，MapReduce由JobTracker和TaskTracker组成。JobTracker是运行在主节点上的后台进程，监听各个TaskTracker发来的心跳，包括资源使用情况和任务运行情况等信息。TaskTracker是运行在从节点上的进程，它一方面将本地节点上各个任务的状态通过心跳，周

2018-01-09 22:49:00 327

原创【Hadoop】HDFS数据复制

为了保证存储文件的可靠性，HDFS把文件分解成多个序列块，并保存数据块的多个副本。这对容错非常重要，当文件的一个数据块损坏时，可以从其他节点读取数据块副本。HDFS有“机架感知”策略放置文件副本，因为同一机架的带宽大于跨机架的带宽，所以在一个复制因子默认为3的系统中，HDFS会把备份一份保存在本地节点，另外一份保存在同一机架的其他节点，最后一份保存在其他机架节点，这样既保证了文件安全性，又能提高写

2018-01-08 23:18:35 4207

原创【Hadoop】HDFS三组件：NameNode、SecondaryNameNode和DataNode

HDFS主要由三个组件构成，分别是NameNode、SecondaryNameNode和DataNode，其中NameNode和SecondaryNameNode运行在master节点上，DataNode运行在slave节点上。HDFS架构如下图：1. NameNodeNameNode管理HDFS文件系统的命名空间，它维护文件系统树及树中的所有文件和目录。同时NameNode也

2018-01-08 22:28:00 4885

原创【Hadoop】Hadoop生态圈基本组件介绍

1. HDFSHDFS（Hadoop分布式文件系统）源于Google在2003年10月发表的GFS论文，HDFS是GFS的实现。HDFS通过流式数据访问，适合大数据集访问的应用程序。HDFS有一次写入多次读取的机制，数据已块的形式，同时分布在集群的不同物理机器上。2. MapReduceMapReduce（分布式计算框架）源于Google在2004年12月发表的MapReduce论文，

2018-01-07 09:59:58 4190

原创【Hadoop】安装Apache Hadoop

一、环境介绍本篇博客介绍手工安装Apache Hadoop的过程，建立VMware上建立三台Linux虚拟机，每台硬盘20G，内存1G。1. 环境版本操作系统：CentOS 6.7Java版本：jdk-7u79-linux-x64.tarHadoop版本：hadoop-2.7.52. 主机规划192.168.56.101 master192.

2018-01-05 23:26:26 481

原创【数据仓库】大数据定义

2012年Gartner公司将大数据定义为3V，即：大容量（Volume）、高流速（Velocity）、多样化（Variety），后来人们在3V基础上增加新的V-"Veracity"，即真实性。现在人们普遍认可的大数据是具有4V，即：Volume、Velocity、Variety、Veracity，也就是大、快、多、真。1. Volume（生成和存储的数据量大）随着技术的发展，人们收集信息

2018-01-01 11:21:17 950

SOWC 2014 Stat Tables_Table 9.xlsx

《Python 数据处理》第四章Excel实验文件，用于测试童工和童婚数量分析。

2018-05-15

population_data.json

用Python练习做世界人口地图的文件。《Python编程：从入门到实践》，数据可视化经典案例所需文件。

2017-10-19

Python Indent插件

此插件用于解决python自动缩进问题。 1. 解压压缩包 2. 把Python Indent文件夹和Python Indent.dll放在notepad++安装目录的plugins文件夹下 3. 重启notepad++ 4. 依次点击插件--Python Indent--Enable，将Enable打钩 5. 问题解决

2017-09-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Just Do IT