大数据
文章平均质量分 90
m 宽
致力于量化数据研究,辅助编程开发,数据挖掘与分析,策略模型构建,从微观量化到宏观基本面,从百草园到三味书屋。
展开
-
【spark】第三章——SparkSQL
SparkSQL 的前身是 Shark,给熟悉 RDBMS 但又不理解 MapReduce 的技术人员提供快速上手的工具。Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程中大量的中间磁盘落地过程消耗了大量的 I/O,降低的运行效率,为了提高 SQL-on-Hadoop的效率,大量的 SQL-on-Hadoop 工具开始产生,其中表现较为突出的是:◾ Drill◾ Impala◾ Shark。原创 2023-02-13 21:32:53 · 685 阅读 · 0 评论 -
【spark】小试牛刀sparksql和rdd
1、在spark shell中完成3个pdf文件中相应RDD基本操作2、Patient3.csv中包含病历数据,字段分别为:pid, 身高,体重,腰围,舒张压,收缩压。请RDD操作分别统计以下值:原创 2022-12-05 18:41:41 · 583 阅读 · 0 评论 -
【spark】第二章——SparkCore之运行架构及核心编程
Spark 框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构。如下图所示,它展示了一个 Spark 执行时的基本结构。图形中的 Driver 表示 master,负责管理整个集群中的作业任务调度。图形中的 Executor 则是 slave,负责实际执行任务。由上图可以看出,对于 Spark 框架有两个核心组件:Spark 驱动器节点,用于执行 Spark 任务中的 main 方法,负责实际代码的执行工作。Driver 在 Spark 作业执行时主要负责:➢ 将用户程原创 2022-12-03 20:39:17 · 553 阅读 · 0 评论 -
【spark】第一章——Spark简介及环境配置
Spark 是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。在之前的学习中,Hadoop 的 MapReduce 是大家广为熟知的计算框架,那为什么咱们还要学习新的计算框架 Spark 呢,这里就不得不提到 Spark 和 Hadoop 的关系。首先从时间节点上来看:Hadoop:◼️2006 年 1 月,Doug Cutting 加入 Yahoo,领导 Hadoop 的开发◼️ 2008 年 1 月,Hadoop 成为 Apache 顶级项目◼️ 2011 年 1.0 正式发布◼️ 20原创 2022-12-03 11:43:17 · 940 阅读 · 0 评论 -
【Hbase】第三章——Hbase的Shell操作与Java连接
这里grad对于表来说是一个只有它自己的列族,course对于表来说是一个有两个列的列族,这个列族由两个列组成math和art,当然我们可以根据我们的需要在course中建立更多的列族,如computer,physics等相应的列添加入course列族。没任何修饰词,就是上边例句,就会显示所有数据行。可能你就发现规律了,HBase的shell操作,一个大概顺序就是操作关键词后跟表名,行名,列名这样的一个顺序,如果有其他条件再用花括号加上。如果重复写入多个rowkey,相同列的数据,会写入多个版本进行覆盖。原创 2022-09-29 16:00:35 · 1094 阅读 · 1 评论 -
【Hbase】第二章——安装部署( 快速入门)
百度网盘资料如下:链接:https://pan.baidu.com/s/1Q_OH6w1ynqrd07jfqyBDQA?pwd=y69u提取码:y69u。原创 2022-12-02 16:06:05 · 560 阅读 · 0 评论 -
【Hbase】第一章——从原理剖析
一个-ROOT-表最多只能有一个Region,也就是最多只能有128MB,按照每行(一个映射条目)占用1KB内存计算,128MB空间可以容纳128MB/1KB=217行,也就是说,一个-ROOT-表可以寻址217个.META.表的Region。举个例子:如果最近写入HBase表中的数据是最可能被访问的,可以考虑将时间戳作为行键的一部分,由于是字典序排序,所以可以使用Long.MAX_VALUE - timestamp作为行键,这样能保证新写入的数据在读取时可以被快速命中。原创 2022-12-02 14:59:38 · 958 阅读 · 0 评论 -
【Hadoop】第三章——Hadoop运行模式(集群分发脚本,SSH免密登录)
1)Hadoop官方网站:http://hadoop.apache.org/2)Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。本地模式:单机运行,只是用来演示一下官方案例。生产环境不用。伪分布式模式:也是单机运行,但是具备Hadoop集群的所有功能,一台服务器模拟一个分布式的环境。个别缺钱的公司用来测试,生产环境不用。完全分布式模式:多台服务器组成分布式环境。生产环境使用。1)各个模块分开启动/停止(配置ssh是前提)常用(1)整体启动/停止HDFS。原创 2022-12-01 23:33:39 · 243 阅读 · 0 评论 -
【Hadoop】第二章——Hadoop运行环境搭建(开发重点)
此文章资料请下载百度网盘:链接:https://pan.baidu.com/s/15q-gV6bNHmKDkCeskdQ-nQ?pwd=r473 提取码:r473。原创 2022-12-01 17:15:14 · 258 阅读 · 0 评论 -
【Hadoop】第一章—— Hadoop概述
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。◾Apache版本最原始(最基础)的版本,对于入门学习最好。2006◾Cloudera内部集成了很多大数据框架,对应产品CDH。2008◾Hortonworks文档较好,对应产品HDP。2011◾Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP。官网地址:http://hadoop.apache.org。原创 2022-12-01 15:52:52 · 122 阅读 · 0 评论