Hadoop/Spark
大数据组件入门和进阶实战
图灵的猫.
给行业以ai,而不是给ai以行业
展开
-
OLAP(On-line Analytical Processing,联机分析处理)
数据仓库的多维数据模型 可能很多人理解的数据仓库就是基于多维数据模型构建,用于OLAP的数据平台,通过上一篇文章——数据仓库的基本架构,我们已经看到数据仓库的应用可能远不止这些。但不得不承认多维数据模型是数据仓库的一大特点,也是数据仓库应用和实现的一个重要的方面,通过在数据的组织和存储上的优化,使其更适用于分析型的数据查询和获取。多维数据模型的定义和作用多维数据模型是转载 2017-12-22 23:03:49 · 2144 阅读 · 0 评论 -
Secondary Namenode工作机制详解
我的机器学习教程「美团」算法工程师带你入门机器学习 以及「三分钟系列」数据结构与算法已经开始更新了,欢迎大家订阅~这篇专栏整合了这几年的算法知识,简单易懂,也将是我实体书的BLOG版。欢迎大家扫码关注微信公众号「图灵的猫」,除了有更多AI、算法、Python相关文章分享,还有免费的SSR节点和外网学习资料。其他平台(微信/知乎/B站)也是同名「图灵的猫」,不要迷路哦~...原创 2018-06-17 23:19:53 · 3018 阅读 · 0 评论 -
Scala中的Apply方法与伴生对象
类和单例对象间的一个差别是,单例对象不带参数,而类可以。每个单例对象都被作为由一个静态变量指向的虚构类:synthetic class的一个实例来实现,因此它们与Java静态类有着相同的初始化语法。当单例对象与某个类共享同一个名称时,他被称作是这个类的伴生对象:companion object。类被称为是这个单例对象的伴生类:companion class。Scala 的apply 有2 张形式,一种是 伴生对象的apply ,一种是 伴生类中的apply,下面展示这2中的apply的使用。原创 2018-07-08 21:57:54 · 958 阅读 · 0 评论 -
Hive报错:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient
我的机器学习教程「美团」算法工程师带你入门机器学习 以及「三分钟系列」数据结构与算法已经开始更新了,欢迎大家订阅~这篇专栏整合了这几年的算法知识,简单易懂,也将是我实体书的BLOG版。欢迎大家扫码关注微信公众号「图灵的猫」,除了有更多AI、算法、Python相关文章分享,还有免费的SSR节点和外网学习资料。其他平台(微信/知乎/B站)也是同名「图灵的猫」,不要迷路哦~...原创 2018-07-09 17:09:09 · 672 阅读 · 0 评论 -
Scala常用List列表操作方法
把Scala List的几种常见方法梳理汇总如下,日常开发场景基本上够用了。原创 2018-07-03 16:18:21 · 16672 阅读 · 0 评论 -
Scala学习笔记——主构造器、辅助构造器与私有构造器
上述代码声明并初始化了不可变字段name和color,并且这两个字段都是对象私有的。也就是说,类的方法,只能访问到当前对象的字段。想要让主构造器变成私有构造器,只需要加上private关键字即可。这样做之后,就必须使用辅助构造器来构造Dog对象了。原创 2018-07-14 17:41:30 · 5364 阅读 · 0 评论 -
一文读懂HBase的存储模式--BigTable
摘要 Bigtable 是一个分布式的结构化数据存储系统,它被设计用来处理海量数据:通常是分布在数千台普通服务器上的 PB 级的数据。Google 的很多项目使用 Bigtable 存储数据,包括 Web 索引、 Google Earth、Google Finance。这些应用对 Bigtable 提出的要求差异非常大,无论是在数据量上(从 URL 到网页到卫星图像)还是在响应速度上(从后端...转载 2019-03-09 21:28:21 · 2379 阅读 · 0 评论 -
Scala入门(一):直接在eclipse上安装Scala IDE
这是typesafe公司官方开发的IDE。另有个IntellJ, 安装 scala 插件后,也很好用大家可以试试。这里我用的是SCALA IDE。原创 2018-05-24 19:41:57 · 17478 阅读 · 0 评论 -
Mysql学习笔记(二):子查询与连接
下列代码是我在学习MOOC的视频时做的一些练习,内容比较简单,本节主要涉及内外连接以及子分类(自连接),大家可以作为练习参考直接使用代码如下://Join的使用USe mooc; Select * from tdb_goods group by goods_id ASC;ALTER TABLE tb_cates rename to goods_cate; INSERT goods_c原创 2017-12-28 12:15:03 · 508 阅读 · 0 评论 -
Mysql学习笔记(一):子查询与选择
下列代码是我在学习MOOC的视频时做的一些练习,内容比较简单,主要涉及子查询与连接,大家可以作为练习参考直接使用代码如下:Create database MOOC;Use MOOC;SET NAMES utf8; CREATE TABLE IF NOT EXISTS tdb_goods( goods_id SMALLINT UNSIGNED PRIMARY KEY AUTO_INC原创 2017-12-28 12:07:33 · 537 阅读 · 0 评论 -
数据库原理之函数依赖、多值依赖
这种概念很容易推广到关系数据库模式上,R(U),U={X,Y,Z, K},对于任何一个元组,只要(X,Y,Z)确定了,就能确定整个元组,也就是存在K = f(X,Y,Z)的关系,只不过这里的f不能用公式表达,而只能是语义上的含义。若X->->Y 在R(U)上成立,且Y’ 包含于Y,不能断言 X->->Y’在R(U)上成立(注意和上一条性质不同) (因为多值依赖中的定义中涉及了U中除了X,Y之外的其余属性Z,因此换成Y’后就需要涉及Z’ = U-X-Y’ 比之前确定X->->Y的时候属性列多,就不一定了)原创 2018-01-04 18:51:27 · 39796 阅读 · 5 评论 -
手把手教你安装Hadoop2.9.x(基于CENTOS 7| Jdk 1.8.0)
主要内容是自己安装Hadoop的经验,另外还会有一些疑难解答(主要是localhost:9000无法连接的问题)安装平台:Linux/GNU CENTOS 7环境设置:JAVA JDK最新版框架版本:Hadoop 2.9.X 环境本教程使用 CentOS 6.4 32位 作为系统环境,请自行安装系统。如果用的是 Ubuntu 系统,请查看相应的 Ubuntu安装Hadoop教程。本教程基于原生 H...转载 2018-05-27 12:53:13 · 3386 阅读 · 0 评论 -
Hadoop出现core-site.xml not found的解决办法
27-33行都是为了避免可能的报错而增加的几个path变量(其实不加也没事),最主要的是要修改最后一行那个HADOOP_CONF_DIR 变量为自己的Hadoop目录(默认是个错误的路径所以会跳错)提示说core-site.xml找不到。当时很奇怪,因为明明才更新了这个文件的配置,增加了几个进去。再次运行命令,一切正常。原创 2018-05-27 20:30:19 · 11968 阅读 · 2 评论 -
Unable to load native-hadoop library的解决方法
虽说不影响任务进程,不过看起来确实不好看(强迫症受不了)。具体操作是直接在log4j日志中去除告警信息。在/$HADOOP_HOME/etc/hadoop/log4j.properties。再运行命令,显示一切正常。原创 2018-05-27 20:35:16 · 14236 阅读 · 3 评论 -
Hadoop:一文详解MapReduce的工作机制
Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词,一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。因此,对于MapReduce,可以简洁地认为,它是一个软件框架,海量数据是它的“菜”,它在大规模集群上以一种可靠且容错的方式并行地“烹饪这道菜”。原创 2018-06-04 10:33:01 · 6609 阅读 · 3 评论