![](https://img-blog.csdnimg.cn/20201123171452366.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 95
记录并分享大数据生态圈的相关知识
涛99
这个作者很懒,什么都没留下…
展开
-
电商分析之广告业务
文章内容输出来源:拉勾教育大数据高薪训练营互联网平台通行的商业模式是利用免费的基础服务吸引凝聚大量用户,并利用这些用户资源开展广告或其他增值业务实现盈利从而反哺支撑免费服务的生存和发展。广告收入不仅成为互联网平台的重要收入之一,更决定了互联网平台的发展程度。电商平台本身就汇聚了海量的商品、店铺的信息,天然适合进行商品的推广。对于电商和广告主来说,广告投放的目的无非就是吸引更多的用户,最终实现营销转化。因此非常关注不同位置广告的曝光量、点击量、购买量、点击率、购买率。第1节 需求分析事件日.原创 2020-11-29 13:33:15 · 519 阅读 · 0 评论 -
拉勾教育之大数据学习心得
1、自我介绍2、如何了解到拉勾教育的3、为什么选择了拉勾教育4、对拉勾教育的课程和老师们的评价5、在拉勾教育学习到了什么6、学习经验分享与总结原创 2020-11-29 13:31:29 · 3610 阅读 · 4 评论 -
HDFS-分布式文件系统
文章内容输出来源:拉勾教育大数据高薪训练营第 1 节 HDFS 简介HDFS (全称:Hadoop Distribute File System,Hadoop 分布式文件系统)是 Hadoop 核心组成,是分布式存储服务。分布式⽂件系统横跨多台计算机,在⼤数据时代有着广泛的应⽤前景,它们为存储和处理超⼤规模数据提供所需的扩展能力。HDFS是分布式文件系统中的⼀种。第 2 节 HDFS的重要概念HDFS 通过统⼀的命名空间目录树来定位文件; 另外,它是分布式的,由很多服务器联合起来.原创 2020-11-29 13:18:12 · 407 阅读 · 0 评论 -
YARN-资源调度
文章内容输出来源:拉勾教育大数据高薪训练营第 1 节 Yarn架构ResourceManager(rm):处理客户端请求、启动/监控ApplicationMaster、监控NodeManager、资源分配与调度; NodeManager(nm):单个节点上的资源管理、处理来自ResourceManager的命令、处理来⾃ApplicationMaster的命令; ApplicationMaster(am):数据切分、为应⽤程序申请资源,并分配给内部任务、任务监控与容错。 Contain.原创 2020-11-29 13:17:46 · 162 阅读 · 0 评论 -
MapReduce编程框架
文章内容输出来源:拉勾教育大数据高薪训练营第 1 节 MapReduce思想MapReduce思想在⽣活中处可见。我们或多或少都曾接触过这种思想。MapReduce的思想核⼼是分而治之,充分利用了并⾏处理的优势。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,⽽不是⾃己原创。MapReduce任务过程是分为两个处理阶段:Map阶段:Map阶段的主要作用是“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。Map阶段的这些任务可以并行计算,彼此间没有依赖关系。 Redu.原创 2020-11-29 13:17:19 · 370 阅读 · 0 评论 -
Apache Hadoop完全分布式集群搭建
文章内容输出来源:拉勾教育大数据高薪训练营第 1 节 虚拟机环境准备1. 三台虚拟机(静态IP,关闭防火墙,修改主机名,配置免密登录,集群时间同步)2. 在/opt⽬目录下创建⽂文件夹 mkdir -p /opt/lagou/software --软件安装包存放⽬目录 mkdir -p /opt/lagou/servers --软件安装⽬目录3. Hadoop下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.9.原创 2020-11-29 13:16:34 · 600 阅读 · 0 评论 -
Spark安装配置
文章内容输出来源:拉勾教育大数据高薪训练营1.Spark安装官网地址:http://spark.apache.org/文档地址:http://spark.apache.org/docs/latest/下载地址:http://spark.apache.org/downloads.html下载Spark安装包下载地址:https://archive.apache.org/dist/spark/备注:不用安装scala安装步骤: 1、下载软件解压缩,移动到指定位...原创 2020-11-29 13:18:50 · 567 阅读 · 0 评论 -
Redis企业实战问题
文章内容输出来源:拉勾教育大数据高薪训练营缓存问题缓存穿透一般的缓存系统,都是按照key去缓存查询,如果不存在对应的value,就应该去后端系统查找(比如 DB)。缓存穿透是指在高并发下查询key不存在的数据,会穿过缓存查询数据库。导致数据库压力过大而宕机解决方案:对查询结果为空的情况也进行缓存,缓存时间(ttl)设置短一点,或者该key对应的数据insert了 之后清理缓存。问题:缓存太多空值占用了更多的空间使用布隆过滤器。在缓存之前在加一层布隆过滤器,在查询的时候先去布.原创 2020-11-28 00:06:15 · 300 阅读 · 0 评论 -
使用kafka做日志收集案例
需求:使用Kafka做日志收集需要收集的信息:1、用户ID(user_id)2、时间(act_time)3、操作(action,可以是:点击:click,收藏:job_collect,投简历:cv_send,上传简历:cv_upload)4、对方企业编码(job_code)说明:1、HTML可以理解为拉勾的职位浏览页面2、Nginx用于收集用户的点击数据流,记录日志access.log3、将Nginx收集的日志数据发送到Kafka主题:tp_individual架构:原创 2020-11-28 00:05:47 · 1661 阅读 · 0 评论 -
基于Zookeeper实现简易版配置中心
需求:基于Zookeeper实现简易版配置中心要求实现以下功能:创建一个Web项目,将数据库连接信息交给Zookeeper配置中心管理,即:当项目Web项目启动时,从Zookeeper进行MySQL配置参数的拉取要求项目通过数据库连接池访问MySQL(连接池可以自由选择熟悉的)当Zookeeper配置信息变化后Web项目自动感知,正确释放之前连接池,创建新的连接池思路分析:1.定义一个用于发布数据库连接信息到zookeeper的接口,用来修改数据库连接信息2.项目启动时从zook原创 2020-11-28 00:05:17 · 1273 阅读 · 2 评论 -
数据仓库理论
文章内容输出来源:拉勾教育大数据高薪训练营第1节 数据仓库1.1 什么是数据仓库1988年,为解决全企业集成问题,IBM公司第一次提出了信息仓库(Information Warehouse)的概念。数据仓库的基本原理、技术架构以及分析系统的主要原则都已确定,数据仓库初具雏形。1991年Bill Inmon(比尔·恩门)出版了他的第一本关于数据仓库的书《Building the Data Warehouse》,标志着数据仓库概念的确立。书中指出,数据仓库(Data Warehouse)是一.原创 2020-11-28 00:04:42 · 837 阅读 · 1 评论 -
数据质量监控工具——Griffin
第1节 为什么要做数据质量监控garbage in garbage out1、数据不一致企业早期没有进行统一规划设计,大部分信息系统是逐步迭代建设的,系统建设时间长短各异,各系统数据标准也不同。企业业务系统更关注业务层面,各个业务系统均有不同的侧重点,各类数据的属性信息设置和要求不统一。另外,由于各系统的相互独立使用,无法及时同步更新相关信息等各种原因造成各系统间的数据不一致,严重影响了各系统间的数据交互和统一识别,基础数据难以共享利用,数据的深层价值也难以体现。2、数据不完整由于企业信原创 2020-11-28 00:03:49 · 3982 阅读 · 0 评论 -
元数据管理工具——Atlas
第1节 数据仓库元数据管理元数据(MetaData)狭义的解释是用来描述数据的数据。广义的来看,除了业务逻辑直接读写处理的那些业务数据,所有其它用来维持整个系统运转所需的信息/数据都可以叫作元数据。如数据库中表的Schema信息,任务的血缘关系,用户和脚本/任务的权限映射关系信息等。管理元数据的目的,是为了让用户能够更高效的使用数据,也是为了让平台管理人员能更加有效的做好数据的维护管理工作。但通常这些元数据信息是散落在平台的各个系统,各种流程之中的,它们的管理也可能或多或少可以通过各种子系统自身原创 2020-11-28 00:03:23 · 6919 阅读 · 1 评论 -
任务调度系统——Airflow
文章内容输出来源:拉勾教育大数据高薪训练营第1节 Airflow简介Airflow 是 Airbnb 开源的一个用 Python 编写的调度工具。于 2014 年启动,2015 年春季开源,2016 年加入 Apache 软件基金会的孵化计划。 Airflow将一个工作流制定为一组任务的有向无环图(DAG),并指派到一组计算节点上,根据相互之间的依赖关系,有序执行。Airflow 有以下优势:灵活易用。Airflow 是 Python 编写的,工作流的定义也使用 Python 编写; 功能.原创 2020-11-28 00:02:50 · 1887 阅读 · 0 评论 -
DataX快速入门
1.1、DataX概述及安装DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、 TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。概述为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对原创 2020-11-28 00:02:10 · 1263 阅读 · 0 评论 -
Tez快速入门
Hortonworks在2014年左右发布了Stinger Initiative,并进行社区分享,为的是让Hive支持更多SQL,并实现更好的性能。让Hive的查询功能更强大。增加类似OVER子句的分析功能,支持WHERE子查询,以及调整Hive的样式系统更多的符合标准的SQL模型; 优化Hive的请求执行计划,增加 Task 每秒处理记录的数量; 引入新的列式文件格式(ORC文件),提供一种更现代、高效和高性能的方式来储存Hive数据; 引入新的runtime框架——Tez,消除Hive的延迟以原创 2020-11-28 00:01:28 · 457 阅读 · 0 评论 -
工作流调度系统——Azkaban
文章内容输出来源:拉勾教育大数据高薪训练营目录第 1 节 概述1.1 工作流调度系统1.2 工作流调度实现方式1.3 Azkaban与Oozie对比第 2 节 Azkaban介绍第 3 节 Azkaban安装部署3.1 Azkaban的安装准备工作3.2 solo-server模式部署1. 单服务模式安装2. 单服务模式使用3.3 multiple-executor模式部署1 安装所需软件2 数据库准备3 配置Azkaban-web-serve.原创 2020-11-28 00:00:26 · 733 阅读 · 0 评论 -
分布式数据库系统——HBase
第一部分 初识HBase第 1 节 HBase 简介1.1 HBase是什么HBase 基于 Google的BigTable论⽂而来,是⼀个分布式海量列式⾮关系型数据库系统,可以提供超大规模数据集的实时随机读写。1.2 HBase的特点海量存储: 底层基于HDFS存储海量数据 列式存储:HBase表的数据是基于列族进行存储的,一个列族包含若⼲列 极易扩展:底层依赖HDFS,当磁盘空间不足的时候,只需要动态增加DataNode服务节点就可以 高并发:⽀持高并发的读写请求 稀疏:稀疏原创 2020-11-27 23:59:02 · 2168 阅读 · 0 评论 -
分布式协调服务框架——zookeeper
文章内容输出来源:拉勾教育大数据高薪训练营目录第一部分 zookeeper简介1.1 zookeeper是什么?1.2 zookeeper的架构组成1.3 zookeeper的特点第二部分 zookeeper环境搭建2.1 zookeeper的搭建方式2.2 zookeeper集群搭建zk集群启动停止脚本第三部分 zookeeper数据结构与监听机制3.1 ZNode的类型3.2 ZNode的状态信息3.3 Watcher机制第四部分 zookee.原创 2020-11-27 23:58:28 · 510 阅读 · 1 评论 -
交互式查询工具——Impala
文章内容输出来源:拉勾教育大数据高薪训练营目录第一部分 Impala概述1.1 Impala是什么1.2 Impala优势1.3 Impala的缺点1.4 适⽤场景第二部分 Impala安装与入门案例2.1 集群准备2.1.1 安装Hadoop、Hive2.1.2 准备Impala的所有依赖包2.2 安装Impala2.2.1 集群规划2.2.2 具体安装步骤2.2.3 配置HDFS集群的短路读取2.2.4 消除Impala影响2.3 Im.原创 2020-11-27 23:57:51 · 1411 阅读 · 2 评论 -
数据迁移工具——Sqoop
文章内容输出来源:拉勾教育大数据高薪训练营目录第一部分 Sqoop概述第二部分 安装配置第三部分 应用案例第 1 节 导入数据MySQL 到 HDFSMySQL 到 Hive第 2 节 导出数据第 3 节 增量数据导入变化数据捕获(CDC)第 4 节 执行 job第一部分 Sqoop概述Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、 postgresql等)间进行数据的传递。可以将关系型数据库(MySQ..原创 2020-11-27 23:56:56 · 347 阅读 · 0 评论 -
数据采集工具——Flume
文章内容输出来源:拉勾教育大数据高薪训练营第一部分 Flume概述无论数据来自什么企业,或是多大量级,通过部署Flume,可以确保数据都安全、及时地到达大数据平台,用户可以将精力集中在如何洞悉数据上。第 1 节 Flume的定义Flume由Cloudera公司开发,是一个分布式、高可靠、高可用的海量日志采集、聚合、传输的系统。Flume支持在日志系统中定制各类数据发送方,用于采集数据;Flume提供对数据进行简单处理,并写到各种数据接收方的能力。简单的说,Flume是实时采集.原创 2020-11-23 17:57:45 · 2188 阅读 · 1 评论 -
Hadoop可视化UI系统——HUE
文章内容输出来源:拉勾教育大数据高薪训练营第一部分 Hue概述Hue(Hadoop User Experience)是一个开源的 Apache Hadoop UI 系统,最早是由 Cloudera Desktop 演化而来,由 Cloudera 贡献给开源社区,它是基于 Python Web 框架 Django 实现的。通过使用 Hue 可以在浏览器端的 Web 控制台上与 Hadoop 集群进行交互来分析处理数据,例如操作 HDFS 上的数据,运行 MapReduce Job 等等。Hue所..原创 2020-11-23 17:50:57 · 2041 阅读 · 0 评论