自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

ElsaWu的布袋子

大数据工程师from now

  • 博客(18)
  • 收藏
  • 关注

原创 Header-lines tables design pattern头表/行表设计模式

头表 行表

2023-02-26 15:56:54 1296

原创 LSM树笔记整理

LSM 树:Log Structured Merge Tree 日志结构合并树许多NoSQL数据库比如RocksDB、LevelDB、HBase以及Cassandra等,其底层的存储引擎都是基于LSM树,本质是一个key/value存储引擎。写:将对数据的增删改存在内存中,达到指定的threadhold后将该批更改批量写入到磁盘,在批量写入的过程中跟已经存在的数据做rolling merge。可以简单总结为磁盘顺序写 + 多个树(状数据结构) + 冷热数据分级 + 定期归并 + 非原地更新。

2022-11-20 17:35:08 419

原创 维度表设计

维度表设计维度表表示参与到业务过程中的一个业务实体(如,商品、卖家、买家、优惠券、时间等等),每一行数据表示的是一个业务实体的实例(如,商品维度表中的一行表示的就是一个商品),提供了业务流程的上下文。1 基础1.1 结构每个维度表都包含单一的主键列 。维度表的主键可以作为与之关联的任何事实表的外键,维度表行的描述环境应与事实表行完全对应 。维度表通常比较宽 ,是扁平型非规范表 ,包含大量的低粒度的文本属性 。代理键&自然键维度属性:维度所包含的表示维度的列的列,称为维度属性,

2022-07-07 00:05:15 1707

原创 Hadoop基础学习笔记系列(八)MapReduce框架、设计原则约束、实例

目录框架用户定义栗子:汇总文章词语原则原则上好的键值任务分解设计设计约束一些栗子cascadejoin:基于key组合表向量乘法:A x B其他理念:Bring computation to DATA框架何时使用?数据需要经常update——DBMS需要扫描数据——MR用户定义所有数据都会被转换成键值对的形式(基本单元)<key,value>mapper(独立可分,在数据上运行):应用到数据的function,输入:数据,输出:键值对reducer:应用到中间数据的fun

2022-02-15 23:36:38 643

原创 【亲测】在VirtualBox虚拟机和本地之间复制粘贴代码

打开manager选择设置在设置中更改共享粘贴板设置为双向大功告成!

2022-02-15 17:33:35 2131 2

原创 Hadoop基础学习笔记系列(七)HDFS访问命令、API和应用

文章目录访问1 通过命令行使用HDFS2 应用编程接口3 HDFS NFS Gateway4 其他Apache FlumeApache Sqoop应用访问1 通过命令行使用HDFS通过bin/hdfs调用user命令移动数据获取文件信息Administrator命令获取HDFS状态信息debug命令可以查看更多Commands:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HDFSComman

2022-02-15 16:52:31 1102

原创 Hadoop基础学习笔记系列(六)HDFS架构

目录概览性能范围块大小HDFS读写过程写过程读过程HDFS调优参数0 调优1 HDFS Block Size2 HDFS Replication3 NameNode,DataNode system4 栗子:分布式复制HDFS健壮性健壮性如何达到?概览可扩展的分布式文件系统将数据以节点形式分布在本地磁盘上高度容错:可以使用低成本商业硬件数以千计的节点:需要处理节点或硬盘的failure轻量级高流通量Approach:一致性模型:写一次读多次数据复制:可以处理硬

2022-02-15 00:03:09 1708

原创 Hadoop基础学习笔记系列(五)Hadoop应用简介

文章目录1 应用分类数据库Querying机器学习2 Pig3 Hive4 HBase特征栗子1 应用分类数据库Avro:Apache Avro™ 1.11.0 DocumentationApache Avro™是一个数据序列化系统。Avro提供:丰富的数据结构。一种紧凑、快速的二进制数据格式。一个容器文件,用来存储持久数据。远程过程调用(RPC)。与动态语言的简单集成。代码生成不需要读取或写入数据文件,也不需要使用或实现RPC协议。代码生成是一种可选的优化,只值得在静态类型语言中实

2022-02-14 19:28:54 610

原创 Hadoop基础学习笔记系列(四)Hadoop运行环境与资源调度

文章目录1 运行环境2 经典MR框架的局限3 下一代:代替经典MR的框架layout优化策略YARN:Tez:Spark:栗子1. Tez运行Hive2. Spark运行4 资源调度1 运行环境要确保task运行在有数据的node上。早期的运行框架:MR框架2 经典MR框架的局限不适合使用MR的情景:交互数据探索迭代数据处理(需要很多次将数据导入磁盘)3 下一代:代替经典MR的框架YARN,Tez,SparkApache Hadoop YARN (Yet Another Res

2022-02-14 15:13:55 531

原创 Hadoop基础学习笔记系列(三)Hadoop堆栈

目录1 基本Hadoop组件2 应用和框架(在基本组件之上)3 HDFS设计最初的设计Hadoop2的HDFS4 MR框架和YARNMR框架最初的MR框架下一代:YARN1 基本Hadoop组件Hadoop CommonHDFSYARNMR2 应用和框架(在基本组件之上)HBase支持大型表的可扩展数据仓库Hive数据仓库基础设施,提供数据摘要和即席查询Pig高级数据流语言和并行计算执行框架Spark快速通用的计算引擎,可以使用HDFS文件系统。3 HDFS设计最初

2022-02-13 23:52:31 242

原创 Hadoop基础学习笔记系列(二)基于商业情景上手Hadoop【2】

目录情景假设将结构数据和非结构数据关联起来1 上传数据2 建立Hive表并通过Impala和Hue查询数据情景假设仅仅产出关于结构数据的数据报告无法使上级满足,因此需要使用其他方法展现数据价值。提出第二个问题:被浏览最多次的商品销售得最多吗?hadoop可以在不重建整个数据库得情况下存储非结构和半结构数据,因此我们可以存储和处理日志事件数据。在这一章,我们会使用网页点击流数据(使用Flume来提取)。并且我们会实时提取、转换样本网络点击流数据Flume是一个可伸缩的实时框架,当您将数据传输到可伸

2021-10-18 21:27:00 85

原创 Hadoop基础学习笔记系列(二)基于商业情景上手Hadoop【1】

目录Virtualbox下载安装Cloudera QuickStart VM下载Virtualbox下载安装下载路径:https://www.virtualbox.org/wiki/DownloadsCloudera QuickStart VM下载系统:Windows 7+, Mac OS X 10.10+, Ubuntu 14.04+ or CentOS 6+ VirtualBox 5+, VMWare Workstation 9+ or VMWare Fusion 7+硬件需求:Qu

2021-10-18 20:01:13 255

原创 SQL学习笔记(一)

group by 放在最后一句,顺序:WHERE,GROUP BY,HAVING。正确顺序如下:SELECT DISTINCT column, AGG_FUNC(column_or_expression)FROM mytable JOIN another_table ON mytable.column = another_table.column WHERE constraint_expression GROUP BY column HAVING cons.

2021-09-23 23:44:04 98

原创 Hadoop学习+实战开发笔记系列(一)概论

目录Quick View基本组件(一)Hadoop 通用(Hadoop common)(二)Hadoop 分布式文件系统(HDFS)(三)Hadoop MapReduce(四)Hadoop YARNHadoop生态系统中的工具(1)Sqoop(2)HBase(3)PIG(4)Hive(5)Oozie(6)ZooKeeper(7)Flume(8)Spark内容来自Coursea上Hadoop课程的笔记总结。Quick ViewHadoop是Apache开源软件框架,用于在商业集群上存储和大规模处理数

2021-09-22 19:09:40 142

原创 R语言输出RMarkdown为其他格式时(如PDF)时报错LaTeX failed to compile stocks.tex.的解决办法

在使用R语言输出R Markdown为其他格式时,有时会出现以下报错LaTeX failed to compile stocks.tex. See https://yihui.org/tinytex/r/#debugging for debugging tips. See Untitled.log for more info.In addition: Warning message:In system2(..., stdout = if (use_file_stdout()) f1 else FALS

2021-09-10 19:54:35 21791 21

原创 JAVA学习记录(一)——初见JAVA以及环境配置(Eclipse)

本文目录初见JAVAJAVA的特征编程环境工作原理Eclipse下载及环境配置安装java配置环境变量安装Eclipse初见JAVAJAVA的特征面向对象的程序设计语言:提供类、接口和继承等面向对象的特性,只支持类之间的单继承,但支持接口之间的多继承,并支持类与接口之间的实现机制(关键字为 implements);全面支持动态绑定分布式:支持 Internet 应用的开发,在基本的 Java 应用编程接口中有一个网络应用编程接口(java net),它提供了用于网络应用编程的类库,

2021-08-08 00:56:55 113

原创 大数据工程师岗位JD中最常出现的技能

工作内容构建大数据分析平台参与业务数据建设、参与数据专题体系建设、数据中台建设数据分析和挖掘工作基于数据的离线和实时流分析支撑业务的数据模型建设以及数据指标的计算和分析数据存储、查询和运营数据分析体系搭建运用Hadoop\Spark\ES等分布式计算和存储平台ETL流程的优化必备技能一览Hadoop相关技术(开发、部署、调优),理解MapReduce原理和过程编程语言:C/Python/Java(常用框架和中间件)/Scala/PHP/C++/go/rustSpark/Fli

2021-08-06 22:57:41 1000 2

原创 大数据工程师零基础起步——成长路线引入

即写即用大数据开发基础1 编程语言1.1 JAVA1.2 Scala(优先级靠后,有遇到需要用的时候再学,如Spark)2 数据结构和算法3 计算机网络4 操作系统5 数据库基础6 设计模式7 LINUX系统(使用层面)基本开发工具1 Linux操作系统2 SSH终端3 FTP/SFTP工具4 IDE5 源码控制工具6 构建工具具体流程——数据采集1 数据类型2 数据来源3 数据采集(收集/聚合)3.1 Flume(分布式的数据采集和聚合框架)3.2 Logstash(开源数据收集引擎)4 数据迁移(同步/

2021-08-06 22:51:02 440 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除