大数据与数据科学
文章平均质量分 80
《大数据与数据科学》系列囊括了大数据和数据科学的相关内容。除此之外,还包含了与大数据与数据科学领域相关的商业智能的内容,如维度建模与数据仓库Hive编程的内容。
von Neumann
技术日新月异,人类生活方式正在快速转变,这一切给人类历史带来了一系列不可思议的奇点。我们曾经熟悉的一切,都开始变得陌生。
展开
-
大数据概述
分类目录:《大数据与云计算》总目录所谓“大数据”,指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并对其进行分析和挖掘,从海量形式各异的数据源中更有效地抽取出富含价值的信息,而大数据主要被用于分析和决策,企业用以分析的数据越全面,分析的结果就越接近于...原创 2019-03-12 22:26:48 · 123816 阅读 · 1 评论 -
Hadoop与Spark等大数据框架介绍
海量数据的存储问题很早就已经出现了,一些行业或者部门因为历史的积累,数据量也达到了一定的级别。很早以前,当一台电脑无法存储这么庞大的数据时,采用的解决方案是使用NFS(网络文件系统)将数据分开存储。但是这种方法无法充分利用多台计算机同时进行分析数据。一个实际的需求场景:日志分析日志分析是对日志中的每一个用户的流量进行汇总求和。对于一个日志文件,如果只有这么几行数据,我们一般会采用这...原创 2018-08-09 17:06:40 · 411502 阅读 · 10 评论 -
数据仓库Hive编程——数据类型和文件格式(一):基本数据类型
分类目录:商业智能《数据仓库Hive编程》总目录Hive支持关系型数据库中的大多数基本数据类型,同时也支持关系型数据库中很少出现的3种集合数据类型,其中一个需要考虑的因素就是这些数据类型是如何在文本文件中进行表示的,同时还要考虑文本存储中为了解决各种性能问题以及其他问题有哪些替代方案。和大多数的数据库相比,Hive具有一个独特的功能,那就是其对于数据在文件中的编码方式具有非常大的灵活性。大多数...原创 2019-07-31 19:49:36 · 12833 阅读 · 1 评论 -
数据仓库Hive编程——数据类型和文件格式(二):集合数据类型
分类目录:商业智能《数据仓库Hive编程》总目录相关文章:数据类型和文件格式(一):基本数据类型数据类型和文件格式(二):集合数据类型数据类型和文件格式(三):文本文件数据编码数据类型和文件格式(四):读时模式Hive中的列支持使用struct,map和array集合数据类型。需要注意的是下表中语法示例实际上调用的是内置函数。数据类型描述字面语法示例STRUCT...原创 2019-07-31 20:08:33 · 12187 阅读 · 1 评论 -
数据仓库Hive编程——数据类型和文件格式(三):文本文件数据编码
分类目录:商业智能《数据仓库Hive编程》总目录下面我们一起来研究文件格式,首先举个最简单的例子,也就是文本格式文件。毫无疑问,用户应该很熟悉以逗号或者制表符分割的文本文件,也就是所谓的逗号分隔值(CSV)或者制表符分割值(TSV)。只要用户需要,Hive是支持这些文件格式的,在后面的文章将会介绍其具体使用方式。然而,这两种文件格式有一个共同的缺点,那就是用户需要对文本文件中那些不需要作为分隔符...原创 2019-07-31 20:11:23 · 12789 阅读 · 1 评论 -
数据仓库Hive编程——数据类型和文件格式(四):读时模式
当用户向传统数据库中写入数据的时候,不管是采用装载外部数据的方式,还是采用将一个查询的输出结果写入的方式,或者是使用UPDATE语句等等,数据库对于存储都具有完全的控制力。数据库就是“守门人”。传统数据库是写时模式(schema on write),即数据在写入数据库时对模式进行检查。Hive对底层存储并没有这样的控制。对于Hive要查询的数据,有很多种方式对其进行创建、修改,甚至损坏。因此,H...原创 2019-07-31 20:28:48 · 13087 阅读 · 0 评论 -
数据仓库Hive编程——HiveQL的数据定义(一):Hive中的数据库
HiveQL是Hive查询语言。和普遍使用的所有SQL方言一样,它不完全遵守任一种ANSI SQL标准的修订版。HiveQL可能和MySQL的方言最接近,但是两者还是存在显著性差异的。Hive不支持行级插入操作、更新操作和删除操作。Hive也不支持事务。Hive增加了在Hadoop背景下的可以提供更高性能的扩展,以及一些个性化的扩展,甚至还增加了一些外部程序。《HiveQL的数据定义》的内容是H...原创 2019-08-08 20:04:46 · 21055 阅读 · 1 评论 -
数据仓库Hive编程——HiveQL的数据定义(二):修改数据库
用户可以使用ALTER DATABASE命令为某个数据库的DBPROPERTIES设置键值对属性值,来描述这个数据库的属性信息。数据库的其他元数据信息都是不可更改的,包括数据库名和数据库所在的目录位置:hive> ALTER DATABASE financials SET DBPROPERTIES ('edited-by' = 'Joe Dba');同时,当前也没有办法可以删除或者“重...原创 2019-08-08 20:05:27 · 14287 阅读 · 0 评论 -
数据仓库Hive编程——HiveQL的数据定义(三):创建表
CREATE TABLE语句遵从SQL语法惯例,但是Hive的这个语句中具有显著的功能扩展,使其可以具有更广泛的灵活性。例如,可以定义表的数据文件存储在什么位置、使用什么样的存储格式,等等。前面的文章我们在”中已经讨论了很多种存储格式,同时在后续的文章中我们将会再次探讨一下更加高级的格式。本文中,我们会讨论其他一些在CREATE TABLE...原创 2019-08-08 20:06:13 · 15983 阅读 · 1 评论 -
数据仓库Hive编程——HiveQL的数据定义(五):删除表
Hive支持和SQL中DROP TABLE命令类似的操作:DROP TABLE IF EXISTS employees;可以选择是否使用IF EXITST关键字。如果没有使用这个关键字而且表并不存在的话,那么将会抛出一个错误信息。对于管理表,表的元数据信息和表内的数据都会被删除。事实上,如果用户开启了Hadoop回收站功能(这个功能默认是关闭的),那么数据将会被转移到用户在分布式文件系统中...原创 2019-08-08 20:07:18 · 15104 阅读 · 0 评论 -
数据仓库Hive编程——HiveQL的数据定义(六):修改表
大多数的表属性可以通过ALTER TABLE语句来进行修改。这种操作会修改元数据,但不会修改数据本身。这些语句可用于修改表模式中出现的错误、改变分区路径,以及其他一些操作。ALTER TABLE仅仅会修改表元数据,表数据本身不会有任何修改。需要用户自己确认所有的修改都和真实的数据是一致的。表重命名使用以下这个语句可以将表log_messages重命名为logmsgs:ALTER TABLE...原创 2019-08-08 20:07:43 · 12092 阅读 · 1 评论 -
数据仓库Hive编程——HiveQL的数据定义(四):分区表和管理表
数据分区的一般概念存在已久。其可以有多种形式,但是通常使用分区来水平分散压力,将数据从物理上转移到和使用最频繁的用户更近的地方,以及实现其他目的。Hive中有分区表的概念。我们可以看到分区表具有重要的性能优势,而且分区表还可以将数据以一种符合逻辑的方式进行组织,比如分层存储。我们首先会讨论下分区管理表。重新来看《数据仓库Hive编程》中前面几篇文章日到的的那张emplyees表并假设我们在一个...原创 2019-08-08 20:06:44 · 14656 阅读 · 1 评论 -
数据仓库Hive编程——HiveQL的数据操作(一):向管理表中装载数据
既然Hive没有行级别的数据插入、数据更新和删除操作,那么往表中装载数据的唯一途径就是使用一种“大量”的数据装载操作。或者通过其他方式仅仅将文件写入到正确的目录下。在第4.4节“分区表、管理表”中我们已经看到了一个如何装载数据到管理表中的例子,这里我们稍微对其增加些内容重新进行展示。我们新增了一个关键字OVERWRITE:LOAD DATA LOCAL INPATH '${env:HOME}/...原创 2019-09-26 20:22:31 · 57940 阅读 · 1 评论 -
数据仓库Hive编程——Hive基础知识
从早期的互联网主流大爆发开始,主要的搜索引擎公司和电子商务公司就一直在和不断增长的数据进行较量。最近,社交网站也遇到了同样的问题。如今,许多组织已经意识到他们所收集的数据是让他们了解他们的用户,提高业务在市场上的表现以及提高基础架构效率的一个宝贵的资源。Hadoop生态系统就是为处理如此大数据集而产生的一个合乎成本效益的解决方案。Hadoop实现了一个特别的计算模型,也就是MapReduce,其...原创 2019-07-29 19:20:30 · 21531 阅读 · 4 评论 -
维度建模——维度建模与数据仓库概述
分类目录:商业智能《维度建模》总目录数据仓库和商业智能(Data Warehousing and Business Intelligence,DW/BI)行业渐趋成熟。尽管初期仅有部分大型公司采用,但从那时起,DW/BI逐渐为各种规模的公司所青睐。业界已建立了数以千计的DW/BI系统。随着数据仓库原子数据的不断增加以及更新越来越频繁,数据容量不断增长。在我们的职业生涯中,我们见证了数据库容量从M...原创 2019-08-28 20:31:14 · 54156 阅读 · 0 评论 -
维度建模——数据仓库初步
本文是《维度建模》后续文章的基础。我们首先从宏观层面上考察数据仓库和商业智能(Data Warehousing and Business Intelligence,DW/BI)系统。DW/BI系统首先应该仔细考虑的问题是业务需求。《维度建模》系列文章将紧紧抓住业务需求这一要点,逐步深入探讨逻辑设计、物理设计以及采用有关技术和工具的决策等问题。本文将详细考察数据仓库及商业智能的主要目标,辨析DW/...原创 2019-11-19 21:32:14 · 68968 阅读 · 1 评论 -
数据科学家之路——数据预处理技术基础
现实世界中数据大多都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量,我们一般会在对数据建模前对数据进行预处理。数据预处理的过程主要包括:数据质量分析、数据审计、数据清洗、数据集成、数据变换、数据脱敏、数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。本文将介绍数据预处理技术的一些基本步骤,让读者对数据...原创 2018-10-24 16:06:52 · 124792 阅读 · 0 评论