- 博客(32)
- 收藏
- 关注
原创 python进行Excel处理
1 import pandasimport pandas as pd#导入pandas并取别名,后续代码都可以使用pd别名代替pandas2 pandas读取Excel文件sheet1_date = pd.read_excel("file_name","sheet_name")#pandas可以读取多种文件类型,第一个参数是文件路径,可以是相对路径也可以是绝对路径,由打开jupyter notebook的文件夹位置决定#第二个参数是Excel文件的sheetname3 pandas
2022-04-08 11:06:12 2307
原创 业务数仓笔记
1 电商业务流程2 数仓理论SKU=Stock Keeping Unit(库存量单位)。即库存进出计量的基本单元,可以是以件,盒,托盘等为单位。SPU(Standard Product Unit):标准化产品单元。是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息的集合,该集合描述了一个产品的特性。2.1 表的分类2.11 实体表实体表,一般是指一个现实存在的业务对象,比如用户,商品,商家,销售员等等。用户表:...
2022-03-18 12:24:11 195
原创 系统函数笔记
1 concate函数 1)collect_set函数把同一分组的不同行的数据聚合成一个集合hive (gmall)> select course, collect_set(area), avg(score) from stud group by course;chinese ["sh","bj"] 79.0math ["bj"] 93.52)CONCAT(string A/col, string B/col…)...
2022-03-17 10:35:25 1804
原创 电商数仓笔记
1 数据仓库目的:通过对数据仓库中数据的分析,可以帮助企业,改进业务流程、控制成本、提高产品质量等2 需求分析实时采集埋点的用户行为数据 实现数据仓库的分层搭建 每天定时导入业务数据 根据数据仓库中的数据进行报表分析埋点用户行为数据:用户在使用产品过程中,与客户端产品交互过程中产生的数据,比如页面浏览、点击、停留、评论、点赞、收藏等业务交互数据:业务流程中产生的登录、订单、用户、商品、支付等相关的数据,...
2022-03-14 16:03:22 1711
原创 笔记-离线阶段框架总结
1 zookeeper大数据领域里面一个分布式服务协调框架,主要是帮助其他的框架正常运行1.1 节点类型永久节点: 普通永久节点 序列化永久节点临时节点:客户端一旦断开连接,节点消失 普通临时节点 序列化临时节点1.2 watch机制类似于监听器2 hadoop2.1 hdfs:分布式文件存储系统namenode:主节点,主要用于管理元数据信息fsim...
2022-03-13 14:56:58 2473
原创 kafka-笔记02
1 kafka集群操作#1、创建topic#创建一个名字为test的主题, 有三个分区,有两个副本#node01执行以下命令来创建topic cd /opt/module/kafka_2.11-1.0.0bin/kafka-topics.sh --create --partitions 3 --replication-factor 2 --topic test --zookeeper hadoop102:2181, hadoop103:2181, hadoop104:2181#2、查看
2022-03-11 17:10:38 1795
原创 kafka消息队列-笔记
1 什么是消息在应用系统之间,传递的数据,叫做消息;2 常见消息队列标准的消息队列实现:主要基于pub/sub publish 、subscribe发布与订阅模型RabbitMQ:rabbit message queueActiveMQ:支持消息队列当中事务处理RocketMQ:阿里开源的消息队列rocket非标准的消息队列的实现消息队列模型:主要是基于push、poll 推送...
2022-03-10 21:36:16 761
原创 oozie笔记
1 oozie概述oozie是运行在hadoop平台上的一种工作流调度引擎,它可以用来调度与管理hadoop任务2 oozie架构client客户端,提交任务到oozie的服务端 2.oozie-server服务端,运行一个Tomcat实例,主要用于接收客户端提交的任务 3.db数据库,服务端将客户端提交的任务都保存在db里面,默认使用的db是h23oozie组件workflow定义工作流,从哪一个开始执行,到哪一个最终结束,最后定义完成之后,形成一个有向无环图DA...
2022-03-09 20:54:18 246
原创 Hue笔记
1 概述HUE=Hadoop User Experience,通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job,执行Hive的SQL语句,浏览HBase数据库等等。2 核心功能访问HDFS和文件浏览通过web调试和开发hive以及数据结果展示查询solr和结果展示,报表生成通过web调试和开发i...
2022-03-06 21:52:58 416
原创 impala交互式查询工具
1 概述impala是基于hive的大数据分析查询引擎,直接使用hive的元数据库metadata,意味着impala元数据都存储在hive的metastore当中,并且impala兼容hive的绝大多数sql语法。1.1 优点速度快摈弃了MR的计算,改用C++来实现具有数据仓库的特性,对hive的原有数据做数据分析支持ODBC,jdbc远程访问1.2 缺点内存消耗大,官方推荐每台...
2022-03-06 17:04:43 1478
原创 数据清洗常用函数
1parse_url_tuple解析URL+----------------------------------------------------+--+| tab_name |+----------------------------------------------------+--+| parse_url_tuple(url, partname1, partname2, ..., partnameN)...
2022-03-05 10:42:18 612
原创 维度建模入门
1 维度建模维度建模(dimensional modeling)是专门用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。1.1 维度表(dimension)维度表示你要对数据进行分析时所用的一个量,比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析。通常来说维度表信息比较固定,且数据量小。1.2 事实表(fact table)表示对分析主题的度量。事实表包含了与各维度表相关联的外键...
2022-03-03 20:43:57 280
原创 网站流量日志数据分析
1 点击流数据模型1.1 点击流概念点击流(Click Stream)是指用户在网站上持续访问的轨迹。通过对网站日志的分析可以获得用户的点击流数据。用户在访问多个网页时,网页与网页之间是靠Referrers参数来标识上级网页来源。由此,可以确定网页被依次访问的顺序,当然也可以通过时间来标识访问的次序。其次,用户对网站的每次访问,可视作是一次会话(Session),在网站日志中将会用不同的Sessionid来唯一标识每次会话。1.2点击流模型生成...
2022-03-02 14:54:22 1422
原创 sqoop数据迁移
1 概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;导出数据:从Hadoop的文件系统中导出数据到关系数据库mysql等2 工作机制将导入或导出命令翻译成mapreduce程序来实现,在翻译出的mapreduce中主要是对inputformat和outputformat进行定制...
2022-03-01 22:06:29 824
原创 工作流调度器azkaban
azkaban官网:Azkabanhttps://azkaban.github.io/1 Azkaban介绍Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。Azkaban定义了一种KV文件(properties)格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。2 Azkaban安装部署单服务模式安装azka...
2022-03-01 20:06:28 532
原创 日志采集框架Flume
1 Flume介绍1.1 什么是FlumeFlume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中1.2 Flume运行机制Flume分布式系统中最核心的角色是agent,每一个agent相当于一个数据传递员,内部有三个组件:Source:采集组件,用于跟数据源对接,以获取数据...
2022-03-01 10:10:00 823
原创 Hive调优
1 Fetch抓取(Hive可以避免进行MapReduce)1.1 hive.fetch.task.conversion设置成more把hive.fetch.task.conversion设置成more,然后执行查询语句,在全局查找、字段查找、limit查找等都不走mapreduce。set hive.fetch.task.conversion=more;1.2 本地模式当Hive的输入数据量非常小时,为避免出现配置maptask比数据运行时间还长,可以...
2022-02-28 16:10:44 660
原创 Hive操作命令
一.数据库与数据库表1.1创建数据库创建数据库create database if not exists dababase_name;use dababase_name;说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的<name>hive.metastore.warehouse.dir</name><value>/user/hive/warehouse</value>创建数据...
2022-02-27 17:58:57 1214
原创 Hive-入门
一、 数据仓库1. 数据仓库的基本概念简称DW,Data Houseware。专门存储数据,构建面向分析的集成化数据环境,主要职责是做数据分析以支持决策。2.数据分析的特征:面向主题:数据分析有一定的范围,需要选择一定的主题进行分析集成性:集成各个其他方面关联的一些数据。比如分析订单购买人的情况,会涉及用户信息非易失性:数据分析主要是分析过去已经发生的数据,分析的数据都是确定的事实,不会再改变...
2022-02-25 22:17:38 785
原创 Yarn资源调度
1.主要组件ResourceManager:主节点,处理客户端请求,分配资源NodeManager:从节点,主要用于任务的计算ApplicationMaster:当有新的任务提交到ResourceManager的时候,ResourceManager会在某个从节点nodeManager上面启动一个ApplicationMaster进程,负责这个任务执行的资源的分配,任务的生命周期的监控等Container:资源的分配单位,Appl...
2022-02-24 20:13:23 352
原创 MapReduce
核心思想:分治Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即对map阶段的结果进行全局汇总。主要特点把一个大的问题,划分成很多小的子问题,并且每个小的子问题的求取思路与我们大问题的求取思路一致MapReduce框架结构一个完整的mapreduce程序在分布式运行时有三类实例进程:1、MRAppMaster:负责整个程序的过程调度及状态...
2022-02-21 10:45:27 667
原创 HDFS的API操作
前提:windows环境需安装将winutil.exe,原因是windows上没有Hadoop运行必须的插件wintils.exe,这个文件在Hadoop官网的安装 包中是没有的,所以需要自行下载。以下为各版本的winutils.exe和hadoop.dll,https://github.com/cdarlint/winutils第一步:将winutils.exe解压至没有空格和中文的目录中,并将bin/hadoop/dll复制至C:\Windo...
2022-02-21 10:38:52 278
原创 分布式文件系统HDFS
一.什么是分布式文件系统在hadoop当中,分布式文件系统(HDFS),对文件系统有一个抽象,HDFS属于当中的一个实现类,可以通过文件系统获取本地文件系统,操作Linux磁盘上面的文件,也可以获取分布式文件系统,操作hdfs上面的文件 ftp://ftp文件系统,可以做文件的上传下载webHdfs:浏览器操作文件系统,可以允许我们通过浏览器上传,下载,修改,hdfs上面的文件hdfs:分布式文件系统...
2022-02-18 15:06:22 1010
原创 HDFS相关介绍
HDFS 介绍HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。HDFS的特性首先,它是一个文件系统,用于存储文件,通过统一的命名空间目录树来定位文件; 其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。master/slaves架构:主从架构HDFS 采用 master/sla...
2022-02-17 21:37:12 731
原创 hadoop——伪分布式集群搭建(CDH)
安装环境服务部署规划 服务器IP 192.168.52.102 192.168.52.103 192.168.52.104 HDFS NameNode Secondary NameNode DataNode DataNode
2022-02-17 14:27:36 192
原创 hadoop——完全分布式搭建(apache)
集群运行服务规划 192.168.52.102 192.168.52.103 192.168.52.104 zookeeper zk zk zk HDFS JournalNode JournalNode JournalNode NameNod
2022-02-17 10:10:53 90
原创 hadoop-standAlone及伪分布式环境搭建
第一步:下载apache hadoop并上传到服务器下载链接:http://archive.apache.org/dist/hadoop/common/hadoop-2.7.5/hadoop-2.7.5.tar.gz上传至/opt/software解压命令cd /opt/softwaretar -zxvf hadoop-2.7.5.tar.gz -C ../module/第二步:修改配置文件修改core-site.xml(建议使用notepad++进行修改)末.
2022-02-16 17:09:59 286
翻译 hadoop架构模型
一.1.x的版本架构模型介绍文件系统核心模块:HDFS分布式文件存储系统:NameNode:集群当中的主节点,主要用于管理集群当中的各种数据secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数据计算核心模块:MapReduce分布式文件计算系统:JobTracker:接收用户的计算请求任务,并分配任务给从节点TaskTracker:负责执行主节点JobTracker分配.
2022-02-16 16:58:13 688
原创 zookeeper
1.概述Zookeeper 是一个分布式协调服务的开源框架, 主要用来解决分布式集群中应用系统的一致性问题。2、zookeeper的架构图Leader:Zookeeper 集群工作的核心事务请求(写操作) 的唯一调度和处理者,保证集群事务处理的顺序性;集群内部各个服务器的调度者。Follower:处理客户端非事务(读操作) 请求,转发事务请求给 Leader;参与集群 Leader 选举投票 2n-1台可以做集群投票。此外,针对访问量比较大的 zookeeper 集群, 还可
2022-02-09 20:04:34 382
原创 大数据环境集群准备
1、三台虚拟机关闭防火墙三台机器执行以下命令(root用户来执行)service iptables stopchkconfig iptables off2、三台机器关闭selinuxvim /etc/selinux/config3、三台机器更改主机名vim /etc/sysconfig/network4、三台机器做主机名与IP地址的映射vim /etc/hosts192.168.52.100 node01.hadoop.com node01192.16.
2022-02-09 19:59:23 132
原创 shell及常见命令
一、shell1.什么是shellShell 是一个用 C 语言编写的程序, 通过 Shell 用户可以访问操作系统内核服务。Shell 既是一种命令语言,又是一种程序设计语言。2.基本格式例:#!/bin/bashecho "Hello World !"#!是一个约定的标记,它告诉系统这个脚本需要什么解释器来执行,即使用哪一种 Shell。3.shell脚本的执行方式方式一:脚本需要有执行权限chmod +x ./hello.sh #使脚本具有执行权限./h..
2022-02-09 19:41:38 89
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人