大数据
文章平均质量分 79
想学习大数据
这个作者很懒,什么都没留下…
展开
-
大数据spark计算引擎快速入门
spark快速入门 spark框架是用scala写的,运行在Java虚拟机(JVM)上。支持Python、Java、Scala或R多种语言编写客户端应用。 下载Spark 访问http://spark.apache.org/downloads.html 选择预编译的版本进行下载。 解压Spark 打开终端,将工作路径转到下载的spark压缩包所在的目录,然后解压压缩包。 可...转载 2018-11-20 15:48:50 · 279 阅读 · 0 评论 -
2019年最新大数据Hbase详细解析
前言 大数据领域在2019年似乎上了另一个台阶,像云计算,人工智能,物联网等都离不开大数据,在本文将着重讲解大数据中的Hbase,希望各位小伙伴能够将这个只是点掌握牢固。正文一、hbase与列式存储 hbase最早起源于谷歌的一篇BigTable的论文,它是由java编写的、开源的一个nosql数据库,同时它也是一个列式存储的、支持分布式(基于hdfs)的数据库。什么是列式存储呢?简...转载 2019-04-12 10:28:22 · 1882 阅读 · 0 评论 -
2019年最新大数据HIVE定义及数据类型详解
前言一转眼进入了2019年的4月份,学习大数据的小伙伴们肯定很辛苦吧,在大数据开发中HIVE在其中占了很大的比重,可以说是整个大数据仓的核心,在本文将详细介绍HIVE这个模块,废话不多说跟随小编一起来学习吧。正文一、Hive概述1.Hive简介 Hive数据仓库软件有助于使用SQL读取、编写和管理驻留在分布式存储中的大型数据集。提供了命令行工具和JDBC驱动程序以将用户连接到Hive...转载 2019-04-11 16:13:01 · 473 阅读 · 0 评论 -
大数据Hadoop系列之MapReduce详细解析
前言 在大数据的学习中,很多小伙伴们对于Hadoop中的MapReduce的学习很是吃力,找不到学习的窍门,在本文就MapReduce做一个详细的讲解,帮助各位小伙伴们,更快的掌握MapReduce。正文 由于在学习过程中对MapReduce有很大的困惑,所以这篇文章主要是针对MR的运行机制进行理解记录,主要结合网上几篇博客以及视频的讲解内容进行一个知识的梳理。1、MapReduce...转载 2019-04-02 10:31:22 · 401 阅读 · 0 评论 -
Mac电脑安装mysql数据库的教程
Mac下修改MySQL初始密码 停止 mysql server. 通常是在 ‘系统偏好设置’ > MySQL > ‘Stop MySQL Server’ 打开终端,输入: sudo /usr/local/mysql/bin/mysqld_safe --skip-grant-tables 打开另一个新终端,输入: sudo /usr/local/mysql/bin/...转载 2019-03-13 14:42:17 · 1174 阅读 · 0 评论 -
2019年最新spark常用命令汇总
前言在大数据开发中Spark是专为大规模数据处理而设计的高速引擎,可以说在大数据开发中占据着举足轻重的地位,下面就Spark的一些常用命令做了一下汇总。正文 1. 加速跑 spark-sql --name uername --num-executors 21 --driver-memory 8G --executor-memory 8G 2. 上传数据 建表 create...转载 2019-03-25 11:03:17 · 794 阅读 · 0 评论 -
大数据中模型调优详细解析
k折交叉验证第一步,不重复抽样将原始大数据随机分为 k 份。第二步,每一次挑选其中 1 份作为测试集,剩余 k-1 份作为训练集用于模型训练。第三步,重复第二步 k 次,这样每个子集都有一次机会作为测试集,其余机会作为训练集。在每个训练集上训练后得到一个模型,用这个模型在相应的测试集上测试,计算并保存模型的评估指标,第四步,计算 k 组测试结果的平均值作为模型精度的估计,并作为当前 k...转载 2019-03-19 15:53:24 · 1456 阅读 · 0 评论 -
大数据工程师面试试题汇总HIVE篇
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 Metastore (hive元数据) Hive将元数据存储在数据库中,比如mysql ,derby.Hive中的元数据包括表的名称,表的列和分区及其属性,表的数据所在的目录 Hive数据存储在HDFS,大部分...转载 2019-03-14 14:24:49 · 1820 阅读 · 0 评论 -
大数据实践HIVE详解
一.hive的事务(1)什么是事务要知道hive的事务,首先要知道什么是transaction(事务)?事务就是一组单元化操作,这些操作要么都执行,要么都不执行,是一个不可分割的工作单位。事务有四大特性:A、C、I、D (原子性、一致性、隔离性、持久性)Atomicity: 不可再分割的工作单位,事务中的所有操作要么都发,要么都不发。Consistency: 事务开始之前和事务结束以...转载 2019-01-09 11:14:58 · 262 阅读 · 0 评论 -
大数据Spark优化读取Hbase--region 提高并行数过程详细解析
一. Hbase 的 region我们先简单介绍下 Hbase 的 架构和 region :从物理集群的角度看,Hbase 集群中,由一个 Hmaster 管理多个 HRegionServer,其中每个 HRegionServer 都对应一台物理机器,一台 HRegionServer 服务器上又可以有多个 Hregion(以下简称 region)。要读取一个数据的时候,首先要先找到存放这个...转载 2018-12-17 14:27:04 · 1915 阅读 · 0 评论 -
大数据Hadoop中HDFS用法详细解析
Hadoop–HDFSEdits和Fsimage机制详解概述fsimage镜像文件包含了整个HDFS文件系统的所有目录和文件的indoe(节点)信息,比如:/node01/node,会记录每个节点nodeid,以及节点之间父子路径。以及文件名,文件大小,文件被切成几块,每个数据块描述信息、修改时间、访问时间等;此外还有对目录的修改时间、访问权限控制信息(目录所属用户,所在组等)等。另...转载 2018-12-20 15:41:30 · 849 阅读 · 0 评论 -
大数据HIVE之DDL操作详细解析
前言在学习大数据开发的小伙伴们都知道在HIVE在整个大数据开发中的重要性,他可以称之为大数据中的数据仓库,那么其中的DDL操作各位小伙伴们又熟悉多少呢?在本文将就这个问题做一个详细的讲解。 正文Hive的DDL操作DDL:data definittion language 数据定义语言 主要是定义或改变表的结构、数据类型、表之间的链接和约束等初始化操作DML:data man...转载 2019-04-12 10:48:21 · 821 阅读 · 0 评论