自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 资源 (1)
  • 收藏
  • 关注

原创 HiveQL:数据定义

内容提要lHive中的数据库操作lHive中的表操作HiveQL是Hive查询语言。和普遍使用的所有SQL方言一样,它不完全遵守任意一种ANSISQL标准的修订版。HiveQL可能和MySQL的方言最接近,但是两者还是存在显著性差异的。Hive不支持行级插入操作、更新操作和删除操作。Hive增加了在Hadoop背景下的可以提供更高性能的扩展,以及一些个性化的扩展,甚至还增加了一些外部程序。当然了,大部分的HiveQL还是很常见的。本章以及随后的几章将会使用一些典型的例子来讲解H...

2020-06-16 10:02:16 370

原创 Hive操作实例

3.3.1 使用Hive实现ncdc最高气温统计通过上面的一个wordcount的简单demo,可以基本掌握Hive的操作方法以及流程。接下来使用Hive来实现一个相对于wordcount难一些的实例,以下是具体实现的步骤:(1) 数据准备:这里使用网上的数据资源1901.gz,输入数据类型为TextInputFormat。(2) 创建Hive表,使用create关键字来创建基础表,具...

2020-03-18 15:13:22 493

原创 Beeline命令行操作

通过上一小节对Hive-Cli的一些操作,可以掌握基本的Hive的语法了,本小节需要讲解一下Beeline客户端的一些操作,其实Beeline的语法和Hive客户端的基本一致,但是Hive自身的客户端只能自己用,别人连不上去,要想多个用户访问,必须使用HiveServer2。话不多说,直接进入Beeline-Cli输入一些语句来看一下结果,$beeline>$beeline>!...

2020-03-18 15:07:58 4753

原创 Hive的基本操作3

3.1.9 Hive的数据类型与数据格式Hive的数据类型有两种,一种是基本的数据类型,一种是复杂的数据类型。首先看一下Hive基本数据类型,第一个是数值型,如表2-1所示,(1)Integral Types (TINYINT, SMALLINT, INT/INTEGER, BIGINT):默认情况下,整数型为INT型,当数字大于INT型的范围时,会自动解释执行为BIGIN...

2020-03-09 09:44:05 423

原创 Hive的基本操作2

3.1.6 Hive事务操作Hive开始支持事务,是在Hive0.14之后。HDFS的文件,只能允许新建,删除,对文件中的内容进行更新,不允许单条修改。Hive的文件存储是基于HDFS文件存在的,所以原则上不会直接对HDFS做文件内容的事务更新,只能是采取另外的手段来完成。即用HDFS文件作为原始数据,用delta文件作为操作日志的记录。当访问Hive数据时,根据HDFS文件和delta文件做...

2020-03-03 11:49:46 841

原创 Hive的基本操作

内容提要l Hive及beeline的命令行操作l jdbc操作Hivel Hive函数3.1 Hive命令操作3.1.1 Hive的基本操作我们长久以来习惯于传统的关系型数据库,并且结构化查询语言(SQL)相对来说也比较容易学习,那么能否将类似于关系型数据库的架构应用到Hadoop文件系统,从而可以使用类SQL语言查询和操作数据呢?Hive应运而生。Hive提供了一...

2020-03-01 20:49:22 730

原创 第2章 Hive配置

内容提要l Hive的安装l Hive的配置文件详解让我们来学习一下安装 Hadoop和Hive吧。这是学习和体验Hadoop的一个便捷的方式。之后我们将讨论如何配置Hive以了解如何在Hadoop集群上使用Hive。如果用户已经在使用亚马逊网络服务(AWS)了,那么建立一个供学习Hive的最快速途径是在亚马逊弹性MapReduce系统(EMR)中提交一个Hive任务。...

2020-02-28 11:05:02 252

原创 第1章 Hive基础知识

主要内容l Hadoop概述l Hive概述从早期的互联网主流大爆发开始,主要的搜索引擎公司和电子商务公司就一直在和不断增长的数据进行较量。最近,社交网站也遇到了同样的问题。如今,许多组织已经意识到他们所收集的数据是让他们了解他们的用户,提高业务在市场上的表现以及提高基础架构效率的一个宝贵的资源。Hadoop生态系统就是为处理如此大数据集而产生的一个合乎成本效益的解决方案。H...

2020-02-27 14:48:16 510

原创 关于MapReduce(一)

MapReduce是一种可用于数据处理的编程模型。该模型比较简单,但是想写出有用的程序却不太容易。Hadoop可以运行Java、Ruby和Python等语言的MapReduce。最重要的是MapReduce本质上是并行运行的,因此可以将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。MapReduce的优势在于处理大规模数据集,这里先使用广为流传的气象数据集作为例子来实现一个简单的de...

2019-12-03 09:14:58 276

原创 AI算法在网易云音乐的应用

(一)AI应用的整体架构如下所示:下面是推荐系统体系的整体架构:音乐推荐vs其他推荐:相同点:帮助用户更快捷的获取资源; 以用户体验为导向;差异点:音乐本身的复杂性,怎么理解音乐资源; 可重复消费vs不可重复消费; 音乐消费成本高,前后有明显的关联性,有效行为的含义更丰富; 很难用单一目标去衡量音乐推荐系统;下面是应用NLP技术理解音乐:...

2019-11-28 14:30:05 731

原创 Hadoop源码剖析--HDFS的数据存储

一、HDFS内存存储原理HDFS的数据存储包括两块:(1)HDFS内存存储;(2)HDFS异构存储。HDFS内存存储是一种十分特殊的存储方式,将会对集群数据的读写带来不小的性能提升,而HDFS异构存储则能帮助我们更加合理地把数据存到应该存的地方。HDFS的LAZY_PERSIST内存存储策略用的是下面的这种方法,其中第4步写数据到内存中,第6步异步地将数据写到磁盘,前面几步是如...

2019-11-13 10:45:15 295

原创 IOS开发基础-IOS开发介绍之加法计算器开发

对于ios开发,为了方便开发者开发出强大的功能,苹果提供了各种各样的框架:UIKit:创建和管理应用程序的用户界面; QuartzCore:提供动画特效以及通过硬件进行渲染的能力; CoreGraphics:提供2D绘制的基于C的API; CoreLocation:使用GPS和WIFI获取位置信息; MapKit:为应用程序提供内嵌地图的接口; AVFoundation:音频、视频处...

2019-11-10 21:31:46 231

words1.txt

hangman游戏数据集,words.txt,已测试过,可以正常使用,hangman游戏主要是猜单词的游戏,该数据集包括了一些单词,主要用来测试的数据集

2019-11-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除