彼山有桥-CSDN博客

原创 python进行Excel处理

1 import pandasimport pandas as pd#导入pandas并取别名，后续代码都可以使用pd别名代替pandas2 pandas读取Excel文件sheet1_date = pd.read_excel("file_name","sheet_name")#pandas可以读取多种文件类型，第一个参数是文件路径，可以是相对路径也可以是绝对路径，由打开jupyter notebook的文件夹位置决定#第二个参数是Excel文件的sheetname3 pandas

2022-04-08 11:06:12 2307

原创业务数仓笔记

1 电商业务流程2 数仓理论SKU=Stock Keeping Unit（库存量单位）。即库存进出计量的基本单元，可以是以件，盒，托盘等为单位。SPU(Standard Product Unit)：标准化产品单元。是商品信息聚合的最小单位，是一组可复用、易检索的标准化信息的集合，该集合描述了一个产品的特性。2.1 表的分类2.11 实体表实体表，一般是指一个现实存在的业务对象，比如用户，商品，商家，销售员等等。用户表：...

2022-03-18 12:24:11 195

原创系统函数笔记

1 concate函数 1）collect_set函数把同一分组的不同行的数据聚合成一个集合hive (gmall)> select course, collect_set(area), avg(score) from stud group by course;chinese ["sh","bj"] 79.0math ["bj"] 93.52）CONCAT(string A/col, string B/col…)...

2022-03-17 10:35:25 1804

原创电商数仓笔记

1 数据仓库目的：通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本、提高产品质量等2 需求分析实时采集埋点的用户行为数据实现数据仓库的分层搭建每天定时导入业务数据根据数据仓库中的数据进行报表分析埋点用户行为数据：用户在使用产品过程中，与客户端产品交互过程中产生的数据，比如页面浏览、点击、停留、评论、点赞、收藏等业务交互数据：业务流程中产生的登录、订单、用户、商品、支付等相关的数据，...

2022-03-14 16:03:22 1711

原创笔记-离线阶段框架总结

1 zookeeper大数据领域里面一个分布式服务协调框架，主要是帮助其他的框架正常运行1.1 节点类型永久节点：普通永久节点序列化永久节点临时节点：客户端一旦断开连接，节点消失普通临时节点序列化临时节点1.2 watch机制类似于监听器2 hadoop2.1 hdfs：分布式文件存储系统namenode:主节点，主要用于管理元数据信息fsim...

2022-03-13 14:56:58 2473

原创 kafka-笔记02

1 kafka集群操作#1、创建topic#创建一个名字为test的主题，有三个分区，有两个副本#node01执行以下命令来创建topic cd /opt/module/kafka_2.11-1.0.0bin/kafka-topics.sh --create --partitions 3 --replication-factor 2 --topic test --zookeeper hadoop102:2181, hadoop103:2181, hadoop104:2181#2、查看

2022-03-11 17:10:38 1795

原创 kafka消息队列-笔记

1 什么是消息在应用系统之间，传递的数据，叫做消息；2 常见消息队列标准的消息队列实现：主要基于pub/sub publish 、subscribe发布与订阅模型RabbitMQ:rabbit message queueActiveMQ:支持消息队列当中事务处理RocketMQ:阿里开源的消息队列rocket非标准的消息队列的实现消息队列模型：主要是基于push、poll 推送...

2022-03-10 21:36:16 761

原创集群搭建笔记

个人笔记

2022-03-10 11:43:27 294

原创 oozie笔记

1 oozie概述oozie是运行在hadoop平台上的一种工作流调度引擎，它可以用来调度与管理hadoop任务2 oozie架构client客户端，提交任务到oozie的服务端 2.oozie-server服务端，运行一个Tomcat实例，主要用于接收客户端提交的任务 3.db数据库，服务端将客户端提交的任务都保存在db里面，默认使用的db是h23oozie组件workflow定义工作流，从哪一个开始执行，到哪一个最终结束，最后定义完成之后，形成一个有向无环图DA...

2022-03-09 20:54:18 246

原创 Hue笔记

1 概述HUE=Hadoop User Experience，通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job，执行Hive的SQL语句，浏览HBase数据库等等。2 核心功能访问HDFS和文件浏览通过web调试和开发hive以及数据结果展示查询solr和结果展示，报表生成通过web调试和开发i...

2022-03-06 21:52:58 416

原创 impala交互式查询工具

1 概述impala是基于hive的大数据分析查询引擎，直接使用hive的元数据库metadata，意味着impala元数据都存储在hive的metastore当中，并且impala兼容hive的绝大多数sql语法。1.1 优点速度快摈弃了MR的计算，改用C++来实现具有数据仓库的特性，对hive的原有数据做数据分析支持ODBC，jdbc远程访问1.2 缺点内存消耗大，官方推荐每台...

2022-03-06 17:04:43 1478

原创数据清洗常用函数

1parse_url_tuple解析URL+----------------------------------------------------+--+| tab_name |+----------------------------------------------------+--+| parse_url_tuple(url, partname1, partname2, ..., partnameN)...

2022-03-05 10:42:18 612

原创维度建模入门

1 维度建模维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。1.1 维度表(dimension)维度表示你要对数据进行分析时所用的一个量,比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析。通常来说维度表信息比较固定，且数据量小。1.2 事实表(fact table)表示对分析主题的度量。事实表包含了与各维度表相关联的外键...

2022-03-03 20:43:57 280

原创网站流量日志数据分析

1 点击流数据模型1.1 点击流概念点击流（Click Stream）是指用户在网站上持续访问的轨迹。通过对网站日志的分析可以获得用户的点击流数据。用户在访问多个网页时，网页与网页之间是靠Referrers参数来标识上级网页来源。由此，可以确定网页被依次访问的顺序,当然也可以通过时间来标识访问的次序。其次，用户对网站的每次访问，可视作是一次会话（Session），在网站日志中将会用不同的Sessionid来唯一标识每次会话。1.2点击流模型生成...

2022-03-02 14:54:22 1422

原创 sqoop数据迁移

1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库mysql等2 工作机制将导入或导出命令翻译成mapreduce程序来实现，在翻译出的mapreduce中主要是对inputformat和outputformat进行定制...

2022-03-01 22:06:29 824

原创工作流调度器azkaban

azkaban官网：Azkabanhttps://azkaban.github.io/1 Azkaban介绍Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件(properties)格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。2 Azkaban安装部署单服务模式安装azka...

2022-03-01 20:06:28 532

原创日志采集框架Flume

1 Flume介绍1.1 什么是FlumeFlume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。可以采集文件，socket数据包、文件、文件夹、kafka等各种形式源数据，又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中1.2 Flume运行机制Flume分布式系统中最核心的角色是agent，每一个agent相当于一个数据传递员，内部有三个组件：Source：采集组件，用于跟数据源对接，以获取数据...

2022-03-01 10:10:00 823

原创 Hive调优

1 Fetch抓取（Hive可以避免进行MapReduce）1.1 hive.fetch.task.conversion设置成more把hive.fetch.task.conversion设置成more，然后执行查询语句，在全局查找、字段查找、limit查找等都不走mapreduce。set hive.fetch.task.conversion=more;1.2 本地模式当Hive的输入数据量非常小时，为避免出现配置maptask比数据运行时间还长，可以...

2022-02-28 16:10:44 660

原创 Hive操作命令

一.数据库与数据库表1.1创建数据库创建数据库create database if not exists dababase_name;use dababase_name;说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value>创建数据...

2022-02-27 17:58:57 1214

原创 Hive-入门

一、数据仓库1．数据仓库的基本概念简称DW，Data Houseware。专门存储数据，构建面向分析的集成化数据环境，主要职责是做数据分析以支持决策。2.数据分析的特征：面向主题：数据分析有一定的范围，需要选择一定的主题进行分析集成性：集成各个其他方面关联的一些数据。比如分析订单购买人的情况，会涉及用户信息非易失性：数据分析主要是分析过去已经发生的数据，分析的数据都是确定的事实，不会再改变...

2022-02-25 22:17:38 785

原创 Yarn资源调度

1.主要组件ResourceManager：主节点，处理客户端请求，分配资源NodeManager：从节点，主要用于任务的计算ApplicationMaster：当有新的任务提交到ResourceManager的时候，ResourceManager会在某个从节点nodeManager上面启动一个ApplicationMaster进程，负责这个任务执行的资源的分配，任务的生命周期的监控等Container：资源的分配单位，Appl...

2022-02-24 20:13:23 352

原创 MapReduce

核心思想：分治Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reduce负责“合”，即对map阶段的结果进行全局汇总。主要特点把一个大的问题，划分成很多小的子问题，并且每个小的子问题的求取思路与我们大问题的求取思路一致MapReduce框架结构一个完整的mapreduce程序在分布式运行时有三类实例进程：1、MRAppMaster：负责整个程序的过程调度及状态...

2022-02-21 10:45:27 667

原创 HDFS的API操作

前提：windows环境需安装将winutil.exe，原因是windows上没有Hadoop运行必须的插件wintils.exe，这个文件在Hadoop官网的安装包中是没有的，所以需要自行下载。以下为各版本的winutils.exe和hadoop.dll，https://github.com/cdarlint/winutils第一步：将winutils.exe解压至没有空格和中文的目录中，并将bin/hadoop/dll复制至C:\Windo...

2022-02-21 10:38:52 278

原创分布式文件系统HDFS

一.什么是分布式文件系统在hadoop当中，分布式文件系统（HDFS），对文件系统有一个抽象，HDFS属于当中的一个实现类，可以通过文件系统获取本地文件系统，操作Linux磁盘上面的文件，也可以获取分布式文件系统，操作hdfs上面的文件 ftp://ftp文件系统，可以做文件的上传下载webHdfs：浏览器操作文件系统，可以允许我们通过浏览器上传，下载，修改，hdfs上面的文件hdfs：分布式文件系统...

2022-02-18 15:06:22 1010

原创 HDFS相关介绍

HDFS 介绍HDFS 是 Hadoop Distribute File System 的简称，意为：Hadoop 分布式文件系统。是 Hadoop 核心组件之一，作为最底层的分布式存储服务而存在。HDFS的特性首先，它是一个文件系统，用于存储文件，通过统一的命名空间目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。master/slaves架构：主从架构HDFS 采用 master/sla...

2022-02-17 21:37:12 731

原创 hadoop——伪分布式集群搭建（CDH）

安装环境服务部署规划服务器IP 192.168.52.102 192.168.52.103 192.168.52.104 HDFS NameNode Secondary NameNode DataNode DataNode

2022-02-17 14:27:36 192

原创 hadoop——完全分布式搭建(apache)

集群运行服务规划 192.168.52.102 192.168.52.103 192.168.52.104 zookeeper zk zk zk HDFS JournalNode JournalNode JournalNode NameNod

2022-02-17 10:10:53 90

原创 hadoop-standAlone及伪分布式环境搭建

第一步：下载apache hadoop并上传到服务器下载链接：http://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz上传至/opt/software解压命令cd /opt/softwaretar -zxvf hadoop-2.7.5.tar.gz -C ../module/第二步：修改配置文件修改core-site.xml(建议使用notepad++进行修改)末.

2022-02-16 17:09:59 286

翻译 hadoop架构模型

一.1.x的版本架构模型介绍文件系统核心模块：HDFS分布式文件存储系统：NameNode：集群当中的主节点，主要用于管理集群当中的各种数据secondaryNameNode：主要能用于hadoop当中元数据信息的辅助管理DataNode：集群当中的从节点，主要用于存储集群当中的各种数据数据计算核心模块：MapReduce分布式文件计算系统：JobTracker：接收用户的计算请求任务，并分配任务给从节点TaskTracker：负责执行主节点JobTracker分配.

2022-02-16 16:58:13 688

原创 zookeeper

1.概述Zookeeper 是一个分布式协调服务的开源框架，主要用来解决分布式集群中应用系统的一致性问题。2、zookeeper的架构图Leader:Zookeeper 集群工作的核心事务请求（写操作）的唯一调度和处理者，保证集群事务处理的顺序性；集群内部各个服务器的调度者。Follower:处理客户端非事务（读操作）请求，转发事务请求给 Leader；参与集群 Leader 选举投票 2n-1台可以做集群投票。此外，针对访问量比较大的 zookeeper 集群，还可

2022-02-09 20:04:34 382

原创大数据环境集群准备

1、三台虚拟机关闭防火墙三台机器执行以下命令（root用户来执行）service iptables stopchkconfig iptables off2、三台机器关闭selinuxvim /etc/selinux/config3、三台机器更改主机名vim /etc/sysconfig/network4、三台机器做主机名与IP地址的映射vim /etc/hosts192.168.52.100 node01.hadoop.com node01192.16.

2022-02-09 19:59:23 132

原创 shell及常见命令

一、shell1.什么是shellShell 是一个用 C 语言编写的程序，通过 Shell 用户可以访问操作系统内核服务。Shell 既是一种命令语言，又是一种程序设计语言。2.基本格式例：#!/bin/bashecho "Hello World !"#!是一个约定的标记，它告诉系统这个脚本需要什么解释器来执行，即使用哪一种 Shell。3.shell脚本的执行方式方式一：脚本需要有执行权限chmod +x ./hello.sh #使脚本具有执行权限./h..

2022-02-09 19:41:38 89

m0_61276219的博客