卜塔-CSDN博客

原创【Hive】命令行提示符中显示当前所在数据库

Hive 0.8.0之后的版本开始支持此功能，可以在命令行中显示当前所在的数据库。设置命令为：set hive.cli.print.current.db=true#设置前hive> use default;OKTime taken: 0.102 secondshive> # 设置后hive> set hive.cli.print.current.db=true;hive (

2018-01-27 15:12:38 2506

原创【Hive】Caused by: MetaException(message:Hive metastore database is not initialized. Please use schema

启动Hive报错如下：Caused by: MetaException(message:Hive metastore database is not initialized. Please use schematool (e.g. ./schematool -initSchema -dbType ...) to create the schema. If needed, don't for

2018-01-23 00:24:46 1304 1

原创【Hadoop】HDFS基本命令

1. 创建目录[grid@master ~]$ hadoop fs -mkdir /test2. 查看文件列表[grid@master ~]$ hadoop fs -ls /Found 3 itemsdrwxr-xr-x - grid supergroup 0 2018-01-08 04:37 /testdrwx------ - grid supergroup

2018-01-17 22:11:38 401

转载：hadoop集群时间同步测试环境：192.168.217.130 master master.hadoop192.168.217.131 node1 node1.hadoop192.168.217.132 node2 node2.hadoop一、设置master服务器时间查看本地时间和时区[root@master ~]# dateMon Feb 27 09:54:09 CST 2017选择时

2018-01-17 21:14:42 1702

原创【Hadoop】MapReduce

MapReduce是一个分布式计算框架，支持编写程序处理大数据集。Hadoop 0.20.0以及之前版本，MapReduce由JobTracker和TaskTracker组成。JobTracker是运行在主节点上的后台进程，监听各个TaskTracker发来的心跳，包括资源使用情况和任务运行情况等信息。TaskTracker是运行在从节点上的进程，它一方面将本地节点上各个任务的状态通过心跳，周

2018-01-09 22:49:00 344

原创【Hadoop】HDFS数据复制

为了保证存储文件的可靠性，HDFS把文件分解成多个序列块，并保存数据块的多个副本。这对容错非常重要，当文件的一个数据块损坏时，可以从其他节点读取数据块副本。HDFS有“机架感知”策略放置文件副本，因为同一机架的带宽大于跨机架的带宽，所以在一个复制因子默认为3的系统中，HDFS会把备份一份保存在本地节点，另外一份保存在同一机架的其他节点，最后一份保存在其他机架节点，这样既保证了文件安全性，又能提高写

2018-01-08 23:18:35 4322

原创【Hadoop】HDFS三组件：NameNode、SecondaryNameNode和DataNode

HDFS主要由三个组件构成，分别是NameNode、SecondaryNameNode和DataNode，其中NameNode和SecondaryNameNode运行在master节点上，DataNode运行在slave节点上。HDFS架构如下图：1. NameNodeNameNode管理HDFS文件系统的命名空间，它维护文件系统树及树中的所有文件和目录。同时NameNode也

2018-01-08 22:28:00 5244

原创【Hadoop】Hadoop生态圈基本组件介绍

1. HDFSHDFS（Hadoop分布式文件系统）源于Google在2003年10月发表的GFS论文，HDFS是GFS的实现。HDFS通过流式数据访问，适合大数据集访问的应用程序。HDFS有一次写入多次读取的机制，数据已块的形式，同时分布在集群的不同物理机器上。2. MapReduceMapReduce（分布式计算框架）源于Google在2004年12月发表的MapReduce论文，

2018-01-07 09:59:58 4237

原创【Hadoop】安装Apache Hadoop

一、环境介绍本篇博客介绍手工安装Apache Hadoop的过程，建立VMware上建立三台Linux虚拟机，每台硬盘20G，内存1G。1. 环境版本操作系统：CentOS 6.7Java版本：jdk-7u79-linux-x64.tarHadoop版本：hadoop-2.7.52. 主机规划192.168.56.101 master192.

2018-01-05 23:26:26 496

原创【数据仓库】大数据定义

2012年Gartner公司将大数据定义为3V，即：大容量（Volume）、高流速（Velocity）、多样化（Variety），后来人们在3V基础上增加新的V-"Veracity"，即真实性。现在人们普遍认可的大数据是具有4V，即：Volume、Velocity、Variety、Veracity，也就是大、快、多、真。1. Volume（生成和存储的数据量大）随着技术的发展，人们收集信息

2018-01-01 11:21:17 1016

原创【数据仓库】数据集市

概念数据集市是数据仓库的一种简单形式，通常由组织内的业务部门自己建立。一个数据集市面向单一主题，如销售、财务、市场等。数据集市的数据源可以是是操作型系统（独立数据集市），也可以是数据仓库（从属数据集市）。数据集市与数据仓库的区别数据集市设计数据集市主要用于部门级别的分析型应用，数据大都经过了综合，粒度级别较高。数据集市一般采用维度模型设计方法，数据结构使用星型模型或雪花模型

2017-12-31 22:31:34 1821

原创【Oracle】数据库范式

为了规范化关系型数据模型，关系型数据库系统在设计时必须遵循一定的规则，这种规则称为关系型数据库系统范式。范式的主要目的是降低数据冗余，设计结构合理的数据库。1. 第一范式（1NF）：字段必须具有唯一属性特征，不可再拆分简单理解为“列不可再分”，比如，员工表中的姓名字段，如果只包含中文姓名则符合1NF，如果包含中文和英文姓名则此字段是可以拆分的，那么就不符合1NF。2.

2017-12-29 10:34:09 347

原创【数据仓库】Inmon与Kimball数仓理论对比

Inmon和Kimball是数据仓库领域伟大的开拓者，他们均多年从事数据仓库的研究，Inmon还被称为“数据仓库之父”。Inmon的《数据仓库》和Kimball的《数据仓库工具箱》都是此领域的经典之作。后来人把这两人的数据仓库思想总结为“Inmon理论”和“Kimball理论”。他们的思想有共同点，也有不同点。下面按照我的想法总结一下，理解如有偏颇，还请多多指正。1. 共同点（1）均极力推

2017-12-29 09:42:04 5292

原创【Oracle】添加注释（COMMENT ON）

在数据库中创建表以后，有时需要添加表或者列的描述信息，也就是注释。这样当后来者查看表结构时，就可以清楚的知道表或者字段的含义。1. 语法COMMENT ON { TABLE [ schema. ] { table | view } | COLUMN [ schema. ] { table. | view. | materialized_view. }

2017-12-20 14:57:58 8865

原创【数据仓库】数据仓库设计前如何粗估所需的存储空间大小？

设计数仓前，粗略估计其所占空间大小是非常重要的。只有估计出空间大小，才能确定数仓将要在什么粒度级别下进行设计。下图给出基本步骤：（1）确定数据仓库中将要创建的所有表通常情况下，总是有一到两个非常大的表和一些小表。（2）估计每张表中行的大小不需要确切的大小，只需要一个上限和一个下限。（3）估计一年内表中可能的最少行数和最多行数（4）使用和估计一年所占空间大小同样的方法

2017-12-14 15:16:20 1438

原创【数据仓库】数据仓库的发展史

数据仓库的起源可以追溯到计算机的发展初期，并且数据仓库是信息技术长期发展的产物，在以后也会一直发展。（1）主文件、报表20世纪60年代初期，计算机领域的主要工作是创建运行在主文件上的单个应用。这些应用是以报表处理和程序为特征的，一般是以某种早期的程序设计语言如Fortran或COBOL编写的。主文件存储在廉价的磁带上面，其缺点是只能顺序访问。比如我们想得到磁带上第20分钟处的数据，那时必须

2017-12-11 23:57:16 2267

原创【Excel-2010】日期函数

1. TODAY()、NOW()TODAY()返回系统当前日期：“YYYY-MM-DD”NOW()返回系统当前日期和时间：“YYYY-MM-DD HH:MI:SS”其中TODAY()和NOW()输入的时间和日期都是动态的，随系统变化，快捷键输入的日期和时间是静态的。2. DATE(year,month,day)返回指定的日期，三个参数依次对应年、月、日，参数不能

2017-11-11 21:49:05 872

原创【Excel-2010】VLOOKUP函数

一、什么是VLOOKUP函数？在表格的首列查找指定的数据，并返回指定数据所在行的指定列处的单元格内容。第一次看这个解释很令人费解，但用几次再回头看这句话，就什么都明白了。此函数格式为：VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)lookup_value:指在表格或选定区域第一列中要查找的值；table_

2017-11-09 20:30:21 1752

原创【Excel-2010】人口金字塔图

人口金字塔是按人口年龄和性别表示人口分布的特种塔状条形图，是形象地表示某一人口的年龄和性别构成的图形。人口金字塔图，以图形来呈现人口年龄和性别的分布情形，以年龄为纵轴，以人口数为横轴，按左侧为男、右侧为女绘制图形，其形状如金字塔。金字塔底部代表低年龄组人口，金字塔上部代表高年龄组人口。人口金字塔图反映了过去人口的情况，目前人口的结构，以及今后人口可能出现的趋势。人口金字塔可分为三种类型

2017-11-07 19:47:08 17838

原创【Excel-2010】瀑布图

瀑布图，也称作步行图、阶梯图，在企业的经营分析、财务分析中经常使用，可用于表示成本构成、变化等情况。绘制瀑布图时，需要用到堆积柱形图，只不过是把堆积柱形图中的一部分隐藏起来，呈现的效果就是像瀑布一样从上而下。下面是一个瀑布图的例子。下表为某企业的成本构成数据：我们需要先使用占位数据和成本绘制堆积柱形图，然后再隐藏占位数的柱状图部分，从而形成瀑布图。其中：第N个占位数据大小=（总成本

2017-11-06 22:16:12 3772

原创【数据分析】目标优化矩阵表确定权重

在数据分析过程中，某一分析结果可能不能通过数据直观的看出，而是需要把多个指标综合在一起进行评价从而得到最终结果。综合评价分析过程中，经常遇到的问题就是各个指标如何确定在总评分中所占比例，也就是权重。确定权重的方法有多种，这篇博文介绍比较简单的方法——目标优化矩阵表。（本篇博文参考《谁说菜鸟不会数据分析（入门篇）》）1. 什么是目标优化矩阵表？目标优化矩阵的工作原理就是把人脑的模糊思维，简化

2017-11-05 14:34:22 8209

原创【Excel-2010】空值替换

空值是数据表中常见的数据缺失值的表现形式，在Excel中，空值以空白单元格的形式存在。如想把这些空值统一替换为某一值，可以按照如下步骤：1. 选中要筛选的单元格范围。2.使用快捷键“Ctrl+G”，弹出“定位”对话框，单击“定位条件”按钮，弹出“定位条件”对话框。3. 在“定位条件”对话框中选择“空值”，单击“确定”按钮，数据表中空值将会以特殊颜色显示。4. 输入想替换为的值，比如

2017-11-04 09:54:26 10889

原创【Excel-2010】四种方式筛选重复数据

1. 高级筛选法（1）在“数据”选项卡上的“排序和筛选”组中，单击“高级”按钮，弹出“高级筛选”对话框。（2）选择“将筛选结果复制到其他位置”选项，在“列表区域”文本框中选择要筛选的单元格区域，在“复制到”文本框中选择一个单元区域，再勾选“选择不重复的记录”复选框，单击“确定”按钮，筛选效果如图。2. 数据透视表法（1）单击“插入”选项卡，在“表格”功能组中，单击“

2017-11-03 21:45:20 33306

原创【数据分析】脑图简介数据处理

数据处理在数据收集后进行，是数据分析的前提，数据处理的效果将在很大程度上影响我们的分析工作。下面用脑图的形式简单介绍数据处理：

2017-11-03 18:53:38 1006

原创【Excel-2010】规范录入调查问卷

☆本文参考《谁说菜鸟不会数据分析（入门篇）》，第三章。调查问卷一般包括数值题、单选、多选、排序和开放性文字题五种类型，下面就这几种类型怎样规范录入Excel作介绍。1. 数值题在实例问卷中，第3题是个数值题，数值题一般要求被调查者填入相应的数值，或者打分。录入人员只需输入被调查者实际填入的数值即可。2. 单选题单选题的答案只有一个选项，所以在编码

2017-11-03 01:03:34 5466

原创【数据分析】简介Excel数据表及设计要求

Excel软件是数据分析中的常用工具，工作中的80%工作都可以用它完成。本篇博文以脑图的形式介绍Excel数据表的基本构成及设计要求。

2017-11-03 00:33:12 644

原创【Excel-2010】导入网站数据

1. 打开Excel表，单击“数据”选项，选择“自网站”，Excel会自动弹出“新建web查询”对话框。2. 在“地址”栏中输入网址，如 http://data.eastmoney.com/center/ ，单击“转到”按钮。3. 单击要导入表格左上角的箭头，使其变为对勾，单击“导入”按钮。4. 选择好导入表的位置，单击“确定”。

2017-11-03 00:22:28 2304

原创【数据分析】脑图讲述数据分析方法论

数据分析方法论在我们的数据分析过程中起到重要作用，它像一个指南针，时刻提醒我们保持正确的分析方向。本文是对《谁说菜鸟不会数据分析（入门篇）》中，方法论章节的总结。数据分析方法论综述常用方法论总结

2017-11-01 22:57:42 957

原创【数据分析】脑图简介数据分析

今天在读《谁说菜鸟不会数据分析（入门篇）》，也算是学习数据分析的开始，顺便把书中第一章的知识点用脑图的形式总结如下：

2017-11-01 00:24:45 1191

原创【Shell】for循环

for循环是一种常用的语法，可用于数字、字符等的循环。当用于数字间循环时，比如，输出1~5之间的数字，两种写法如下：写法一：[root@master ~]# for i in {1..5}> do> echo $i> done12345写法二：[root@master ~]# for ((i=1;i<=5;i++))> do> echo $i> done1

2017-10-30 23:34:06 293

原创【Shell】特殊变量

1. $? 表示上一个命令退出的状态#正确命令的退出状态一般为“0”，不正确的命令会是一个不为“0”的数字#输入一个正确的ls命令[root@master ~]# ls [root@master ~]# echo $?0#输入一个错误命令[root@master ~]# l0-bash: l0: command not found[root@master ~]# echo $

2017-10-29 10:06:41 311

原创【Hadoop】新旧Java MapReduce API的差异

Hadoop在0.20.0版本中第一次使用新的API，部分早期的0.20.0版本不支持使用旧的API，但在接下来的1.x和2.x版本中新旧API都可以使用。新旧API的差异主要有以下几点：1. 新API倾向于使用虚类，而不是接口，因为更有利于扩展。在旧的API中使用Mapper和Reducer接口，而在新的API中使用虚类。2. 新的API放在org.apache.hadoop.map

2017-10-25 07:02:36 474

原创【Python-3.5】变量命名规范

为了避免编写代码时产生错误，也为了使写出的代码具有更好的可读性，Python中的变量应遵守以下命名规范：1. 变量名只能包含字母、数字和下划线。变量名不能以数字开头，但可以使用字母或者下划线开头。2. 不要使用Python的保留关键字作为变量名。如class、print等。3. 变量名中不要包含空格，如需分隔变量名中的单词，可以使用下划线。4. 变量名尽量选用简短而又具有描述性的词

2017-10-24 13:27:05 611

原创【数据仓库】什么是数据仓库？

数据仓库，英文名称Data Warehouse，简称DW。《数据仓库》一书中的定义为：数据仓库就是面向主题的、集成的、相对稳定的、随时间不断变化（不同时间）的数据集合，用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题，与传统数据库面向应用相对应。数据仓库有如下四大特点：1. 面向主题数据仓库中的数据分为不同的主题域，所谓主题，就是决策者所关心的某一方面。如保险行业数据仓库中的

2017-10-23 22:51:13 5153

原创【Python-3.5】绘制世界人口地图

本文案例来自《Python编程：从入门到实践》，章节16.2，绘制世界人口地图。代码中包含两个模块：world_population.py和country_codes.py。pygal中的world()方法对绘制地图提供了很大方便。world_population.pyimport jsonimport pygal.maps.worldfrom country_codes

2017-10-19 23:16:35 4332

原创【Python-3.5】matplotlib绘制气温折线图

本文案例源自《Python编程：从入门到实践》，章节16.1，我对书中代码进行了简单改进。代码中先导入CSV文件，然后对文件中的数据进行处理，最后展示为折线图。sitka_weather_07-2014.csvAKDT,Max TemperatureF,Mean TemperatureF,Min TemperatureF,Max Dew PointF,MeanDew PointF,Mi

2017-10-18 23:50:09 4238

原创【Python-3.5】Pygal模拟骰子点数，分析结果可视化

使用Pygal模拟同时投掷两个骰子的点数和，本例中使用普通6面的骰子。本例中涉及两个模块，die.py和dice_visual.py。其中die模块中定义roll方法，用于随机产生骰子的点数。运行dice_visual.py会在同目录下产生一个svg文件，在浏览器中打开就可看到条形图的分析结果。代码如下：die.pyfrom random import randint

2017-10-17 23:59:15 1215

原创【Python-3.5】绘制随机漫步图

代码中我们定义两个模型，一个是RandomWalk.py模型，用于随机的选择前进方向。此模型中的RandomWalk类包含两个方法，一个是__init__()，一个是fill_walk()，后者是计算随机漫步的所有点。另外一个是rw_visual.py模型，用于绘制随机漫步图。代码如下：RandomWalk.pyfrom random import choiceclass Ra

2017-10-17 00:09:08 1354

原创【Python-3.5】matplotlib做简单折线图

在matplotlib中使用plot()函数可以做出简单折线图，预期效果如下：代码如下：# 导入pyplot模块import matplotlib.pyplot as plt# 输入横纵坐标数据months = [1,2,3,4,5,6]people = [50,60,45,30,70,65]plt.plot(months,people,linewidth=5)#

2017-10-16 22:26:40 1320

原创【Python-3.5】win7安装Pygame

安装Pygame前需要安装pip，1. 点击如下链接，选择和Python版本匹配的文件，下载文件点击打开链接2. 把下载的文件保存在文件夹中3.

2017-10-14 13:59:14 491

SOWC 2014 Stat Tables_Table 9.xlsx

population_data.json

Python Indent插件

空空如也