大数据
文章平均质量分 96
你的动作太慢了!
敲代码的速度跟我剑姬打破绽的速度一样快 ..
展开
-
SSSSSSSSSpark-core
data analytics fastboth fast to run and fast to wrtie原创 2021-12-24 10:52:26 · 261 阅读 · 0 评论 -
scala
介绍:Scala 是 Scalable Language 的简写,是一门多范式的编程语言联邦理工学院洛桑(EPFL)的Martin Odersky于2001年基于Funnel的工作开始设计Scala。Scala是把函数式编程思想和面向对象编程思想结合的一种编程语言。大数据计算引擎Spark由Scala编写 特点:特点Scal原创 2021-12-24 10:47:09 · 233 阅读 · 0 评论 -
一起重新开始学大数据-数据采集工具篇-day 58 sqoop
一起重新开始学大数据-数据采集工具篇-day 57 sqoopSqoop简介概述 将关系数据库(oracle、mysql、postgresql等)数据与hadoop数据进行转换的工具、官网: http://sqoop.apache.org/版本:(两个版本完全不兼容,sqoop1使用最多) sqoop1:1.4.x sqoop2:1.99.x同类产品 DataX:阿里顶级数据交换工具Sqoop安装 sqoop架构非常简单,是hadoop生态系统的架构最简单的框架。原创 2021-09-25 19:41:18 · 280 阅读 · 0 评论 -
一起重新开始学大数据-Hbase篇-day 57 Hbase调优
一起重新开始学大数据-Hbase篇-day 57 Hbase调优????文章目录????1、预分区2、Rowkey设计①设计原则②热点问题3、In memory4、Max Version5、Compact&split6、BulkLoading①代码②说明1、预分区Pre-Creating Regions(预分区) 概述: 默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候, 所有的HBase客户端都向这一个region写数据,直到这个region足够大原创 2021-09-20 15:07:54 · 540 阅读 · 0 评论 -
一起重新开始学大数据-Hbase篇-day 56 Phoenix
一起重新开始学大数据-Hbase篇-day 56 Phoenix????文章目录????Phoenix概述1、Phoenix搭建及基本操作1、关闭hbase集群,在master中执行2、上传解压配置环境变量3、将phoenix-4.15.0-HBase-1.4-server.jar复制到所有节点的hbase lib目录下4、启动hbase , 在master中执行5、配置环境变量2、Phoenix使用1、连接sqlline2、常用命令3、phoenix表映射3.1、视图映射3.2、表映射3、Phoeni原创 2021-09-20 11:57:40 · 177 阅读 · 0 评论 -
一起重新开始学大数据-Hbase篇-day 55 浅谈布隆过滤器、Hbase读写、Hbase的HA和Mapreduce读写Hbase数据
一起重新开始学大数据-Hbase篇-day 55 浅谈布隆过滤器、Hbase读写、Hbase的HA和Mapreduce读写Hbase数据目录浅谈布隆过滤器Hbase的读写Hbase的HA(高可用)Mapreduce读写Hbase数据浅谈布隆过滤器概述: Bloom Filter(布隆过滤器)是1970年由布隆提出的。它实际上是一个很长的二进制向量和一系列随机映射函数。布隆过滤器可以用于检索一个元素是否在一个集合中。它的优点是空间效率和查询时间都远远超过一般的算法,缺点是有一定的误识别率和删原创 2021-09-16 11:28:16 · 171 阅读 · 0 评论 -
一起重新开始学大数据-Hbase篇-day 54 Hbase介绍、shell、过滤器
一起重新开始学大数据-Hbase篇-day 54 Hbase基础知识 前言 HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(File System)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是原创 2021-09-14 12:42:18 · 211 阅读 · 0 评论 -
一起重新开始学大数据-Hbase篇-day 53 Hbase安装及简析
一起重新开始学大数据-Hbase篇-day 53 Hbase安装及简析 搭建Hbase1、启动hadoopstart-all.shweb验证是否开启http://master:50070jps验证是否开启2、启动zookeeper需要在在三台中分别启动zkServer.sh start验证是否开启zkServer.sh status开始搭建hbase1、上传解压配置环境变量tar -xvf hbase-1.4.6-bin.tar.gz -C /usr/local原创 2021-09-12 20:56:16 · 217 阅读 · 0 评论 -
一起重新开始学大数据-hive篇-day 52 常用函数、复杂函数、行列互转、UDF自定义函数、HiveShell
Hive 常用函数关系运算等值比较 = == <=>不等值比较 != <><=>与=和==是等于的意思,<> 与!=都是不等于的意思,但是一般都是用<>来代表不等于,因为<>在任何SQL中都起作用,但是!=在sql2000中用到,则是语法错误,不兼容的(同理=和<=>也是)区间比较: select * from default.students where id between 1500100001原创 2021-09-08 12:56:03 · 314 阅读 · 0 评论 -
一起重新开始学大数据-hive篇-day 51 数据类型 、DDL、DML
一起重新开始学大数据-hadoop篇-day 51 数据类型 、DDL、DMLSQL的小贴士(tips):1、count(*)、count(1) 、count(‘字段名’) 区别 count(*):所有行进行统计,包括NULL行 count(1):所有行进行统计,包括NULL行 count(‘字段名’):对字段中非Null进行统计结果差距不大但是受到集群影响执行时间有差异, 执行时间:count(*)>count('字段名')count(1)2、HQL 执行优先级:fro原创 2021-09-07 22:17:05 · 1173 阅读 · 4 评论 -
一起重新开始学大数据-hive篇-day 50 hive语法及进阶
Hive建表CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name // 定义字段名,字段类型 [(col_name data_type [COMMENT col_comment], ...)] // 给表加上注解 [COMMENT table_comment] // 分区 [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)] // 分桶 [CLUSTE原创 2021-09-06 21:47:25 · 404 阅读 · 0 评论 -
一起重新开始学大数据-hive篇-day49 Hive简介和安装
一起重新开始学大数据-hadoop篇-day49 Hive简介和安装理论部分hive概述 Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL ,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理原创 2021-09-05 11:19:45 · 392 阅读 · 2 评论 -
一起重新开始学大数据-hadoop篇-day48 Yarn
一起重新开始学大数据-hadoop篇-day48 YarnYarnYarn概述yarn:资源调度系统 运算资源:运算程序jar、配置文件、cpu、内存、IO 只负责程序运行所需资源的分配回收等调度任务,与应用程序的内部运作机制完全无关,所以yarn已经成为了通用资源调度平台,许许多多的运算框架都可以借助它来实现资源管理,such as :MR、spark、storm、TEZ、Flink…yarn核心组件功能YARN ClientYARN Client提交Application到RM原创 2021-09-05 10:15:58 · 376 阅读 · 0 评论 -
一起重新开始学大数据-hadoop篇-day47 mapreduce(总)
一起重新开始学大数据-hadoop篇-day47 mapreduce(总)MapReduce概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题.MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据【在这先把reduce理解为一个单独的聚合程序即可】。MapRe原创 2021-09-05 09:22:45 · 314 阅读 · 0 评论 -
一起重新开始学大数据-hadoop篇-day46 Hdfs、yarn的HA,mapreduce(先导)
一起重新开始学大数据-hadoop篇-day46 Hdfs、yarn的HA,mapreduce(1)HA(高可用)HDFS的HA相较于Hadoop1.x ,Hadoop2.x中的HDFS增加了两个重要特性,HA和Federation。HA即为High Availability,用于解决NameNode单点故障问题,该特性通过热备的方式为主NameNode提供一个备用者,一旦主NameNode出现故障,可以迅速切换至备NameNode,从而实现不间断对外提供服务。Federation即为“联邦”,该原创 2021-09-01 21:24:58 · 311 阅读 · 2 评论 -
一起重新开始学大数据-hadoop篇-Day45-hdfs解析和zookeeper安装
一起重新开始学大数据-hadoop篇-Day45-hadoop启动脚本详细启动脚本介绍第一种:全部启动集群所有进程启动:sbin/start-all.sh停止:sbin/stop-all.sh第二种:单独启动hdfs【web端口50070】和yarn【web端口8088】的相关进程启动:sbin/start-dfs.sh sbin/start-yarn.sh停止:sbin/stop-dfs.sh sbin/stop-yarn.sh每次重新启动集群的时候使用第三种:单独启动某一个进程原创 2021-08-30 09:30:16 · 507 阅读 · 0 评论 -
HDFS常用命令与命令大全及其用法
最常用命令-ls 查看hdfs上目录,如 hdfs dfs -ls /-put 将本地文件上传到hdfs,如hdfs dfs -put 本地文件路径 hdfs路径-get 将hdfs文件下载到本地,如 hdfs dfs -get hdfs文件路径 本地文件路径-mkdir 在hdfs 上创建文件夹,如hdfs dfs -mkdir /test-cp 将hdfs文件或目录复制 如 hdfs dfs -cp /test.txt /a/-cat 查看hdfs上文件内容原创 2021-08-30 09:23:02 · 12132 阅读 · 0 评论 -
一起重新开始学大数据-hadoop篇-Day44-Hadoop、hdfs概述架构简析,Hadoop集群搭建
一起重新开始学大数据-hadoop篇-Day44-Hadoop、hdfs概述架构简析,Hadoop集群搭建科普环节概念、名词科普Apache基金会是专门为支持开源软件项目而办的一个非盈利性组织服务器(节点)可以理解为我们的一台笔记本/台式机在这里可以认为是我们的一台虚拟机后面学习中,我们会把一台服务器称为一个节点机架负责存放服务器的架子Hadoop概述:Hadoop是一个适合海量数据的分布式存储和分布式计算的平台。作者Doug Cutting 受Google三篇论文的启发原创 2021-08-28 18:25:29 · 405 阅读 · 0 评论