自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(29)
  • 收藏
  • 关注

原创 数据指标体系

建立指标体系的目的:获取全局性的、有体系性的信息;进而通过这些信息去驱动业务的发展,达成组织目标。 指标体系的本质:指标库 + 关联关系 + 使用指南。 评价指标体系的标准:一套好的指标体系,应该能够帮助我们实现4个目标:描述现状、洞察原因、预判未来、改善未来。 搭建指标体系的过程:理解业务、量化业务、建立体系、交付资产。 指标体系对组织的作用:统一语言、统一方向、收集信息提炼价值。

2023-07-20 11:59:25 869

原创 Python—编写简单爬虫

网络爬虫可以爬取网页公开显示的内容或请求接口返回的数据网站通常拒绝爬虫访问,因此网络爬虫在向网站发送请求前需要将自己伪装成正常用户,而正常用户访问网站获取数据的步骤:1、打开浏览器2、输入要访问的网址发送请求,等待服务器返回数据,通过浏览器加载网页2、从网页中找到需要的数据3、保存需要的数据对应到爬虫就是以下几个步骤:1、伪装用户2、发送请求3、解析数据4、保存数据。

2023-07-12 00:13:58 1362

原创 用 CM 启动 YARN 报错

用 CM 安装 CDH 集群时,配置安装 YARN 时报错。之后成功安装 YARN。

2023-04-20 12:46:56 217

原创 启动cloudera-scm-agent报错:Error getting directory attributes for /xx/log/cloudera-scm-agent

启动cloudera-scm-agent报错:Error getting directory attributes for /opt/cloudera-manager/cm-5.16.1/log/cloudera-scm-agent

2023-04-20 12:41:43 409

原创 数据分析中常用的思维模型

数据分析中常用的思维模型,用户行为模型,商业分析模型

2022-06-20 19:54:22 758

原创 Xshell使用技巧<粘贴多行如何直接复制到终端而非撰写框再回车>

Xshell 可以设置鼠标左右快捷键,实现快速复制粘贴但是鼠标右键粘贴多行时总是粘贴到撰写窗格中,要再回车才能显示在终端屏幕上,很不方便。可以通过如下设置解决:1、打开 “工具-选项” 点开 “高级”,勾选“粘贴多行时总是询问”(如果之前已经勾选,可以取消并保存后再次勾选)2、选择多行文本右键粘贴,这时会弹出询问框,选择“粘贴到终端”并勾选“一律使用该选项”,这样下回再粘贴多行时不会再询问,而是直接粘贴到终端...

2022-06-09 12:32:45 4750

原创 linux—开发需要了解的基础知识(五)<crontab 定时任务>

Linux crontab 是用来定期执行程序的命令。命令会每分钟定期检查是否有要执行的工作,如果有要执行的工作便会自动执行该工作。

2022-06-08 14:30:23 483

原创 linux—开发需要了解的基础知识(四)<shell 脚本>

Shell 是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。本文通过思维导图的方式,整理菜鸟教程上的shell 脚本教程,包括以下内容一、指定shell 程序二、注释三、shell 命令执行四、shell 变量五、参数传递六、运算符七、流程控制八、函数九、文件包含...

2022-06-08 14:19:32 91

原创 linux—开发需要了解的基础知识(三)<grep/sed/awk三剑客>

grep、sed、awk 都是文本分析工具,配合正则表达式或管道命令使用可以发挥强大的功能,被称为linux 三剑客,但三个命令各有其特点:grep 更适合单纯的查找或匹配文本;sed 更适合编辑匹配到的文本;awk 更适合格式化文本,对文本进行较复杂格式处理。...

2022-06-07 22:33:45 192

原创 linux—开发需要了解的基础知识(二)<文件查看、查找与编辑>

文章目录一、查找文件findlocatewhereiswhich二、查看文件内容cat 查看文本文件内容head 查看文件开头部分内容tail 查看文件末尾部分内容grep 查找符合条件的内容三、vim 编辑文件一、查找文件findfind 命令用来在指定目录下查找文件,精确实时查找,速度慢,只搜索用户具备读取和执行权限的目录。任何位于参数之前的字符串都将被视为欲查找的目录名。如果使用该命令时,不设置任何参数,则 find 命令将在当前目录下查找子目录与文件。并且将查找到的子目录和文件全部进行显示。

2022-05-27 18:38:42 104

原创 linux—开发需要了解的基础知识(一)<文件与目录操作>

文章目录一、系统目录结构1、系统启动文件2、指令集合3、外部文件管理4、临时文件5、账户6、运行过程文件7、扩展目录二、文件与目录管理ls: 列出目录及文件名cd:切换目录pwd:显示目前的目录mkdir:创建一个新的目录rmdir:删除一个空的目录cp: 复制文件或目录rm: 删除文件或目录mv: 移动文件与目录,或修改文件与目录的名称三、文件与目录的属性及权限管理属性查看chgrp:更改文件属组chown:更改文件所属用户或文件属组chmod:更改文件9个属性一、系统目录结构在 Linux 或 Un

2022-05-26 19:10:12 195

原创 数据仓库—思维导图讲解数仓体系

文章目录数仓体系总览一、什么是数据仓库OLTP与OLAP对比二、如何构建数据仓库三、数据模型四、数仓分层五、数据治理六、事实表与维度表数仓体系总览一、什么是数据仓库OLTP与OLAP对比二、如何构建数据仓库Kimball 书中描述的总线矩阵宏观矩阵三、数据模型四、数仓分层五、数据治理六、事实表与维度表本文知识点参考网上众多书籍文章,主要有:不吃西红柿《数据仓库知识体系》木东居士《数据随想录》...

2022-05-25 17:55:38 885

原创 python—生成带logo的二维码(零基础向)

在python 中可以用qrcode 库将文本、图片、视频链接等生成二维码,并用图片处理库PIL 中的Image 方法添加自定义图片,制作带有logo的二维码。本文以Windows 系统为例进行演示。有基础的同学请跳过前三章,直接查看二维码生成代码文章目录一、安装python二、安装所需库三、运行python 程序四、二维码生成1、简易基础二维码2、可设置参数二维码3、带有logo的二维码一、安装python首先安装python,这里建议使用Anaconda,一个开源的python 版本。Anaco

2022-05-20 12:41:53 2127

原创 python字符串格式化

文章目录1、% 格式化2、str.format()3、f 格式化1、% 格式化name = 'xiaoming'age = '10'test = '%s is %s years old' % (name, age)print(test)xiaoqing is 10 years old% 也支持字典形式的传递,如下:test1 = 'Hello %(name)s,id=%(id)s' % {'id': 10, 'name': 'World'}print(test1)Hello Wo

2022-04-26 14:58:46 2145 3

原创 正则表达式—python、hive函数

正则表达式是一个特殊的字符序列,用来查找匹配复杂规则的字符串。python 中用re 模块实现正则表达式;hive 中提供了regexp 等函数实现正则表达式的功能。本文将对正则表达式的模式pattern,可选标志位flags,以及python、hive中的相关函数进行讲解。目录1、正则表达式模式2、正则表达式可选标志3、python 函数re.compile(pattern, flags=0)re.match(pattern, string, flags=0)re.search(pattern, s

2022-04-25 23:56:54 2553

原创 《Python编程:从入门到实践》人口地图项目pygal 模块纠错

由于部分模块现在已经弃用,因此使用书中代码会报错1、countries.py 获取两个字的国别码使用 pygal.i18n 模块报错from pygal.i18n import COUNTRIESModuleNotFoundError: No module named ‘pygal.i18n’解决方案:使用 pygal_maps_world.i18n 代替 pygal.i18nfrom pygal_maps_world.i18n import COUNTRIES完整代码如下:# fr

2022-04-04 20:28:09 1276 2

原创 Pr 实用快捷键

C 剃刀工具V 选择工具Up 上一个剪辑点Down 下一个剪辑点Left 向前一帧Right 向后一帧Shift + Right 前进五帧Shift + Left 后退五帧Shift + ; 序列中下一段Ctrl + Shift + ; 序列中上一段Shift + E 启用或不启用素材A 向后选择轨道 Shift + A 向前选择轨道End 跳转到序列-素材结束点Home 跳转到序列-素材开始点Shift + End 跳转到所选素材结束点I/O 标记入...

2022-04-02 23:37:07 7101

原创 python—matplotlib绘制简单图形

目录通用设置绘制折线图绘制散点图绘制柱状图通用设置import matplotlib.pyplot as plt# 定义一个图像窗口,分辨率为128 像素,图像大小为10*6plt.figure(dpi=128, figsize=(10, 6))# 设置图例plt.legend(labels = "y" ,loc="best")'''best 自动选择最佳位置,默认是左上upper right 右上upper left 左上lower right 右下lower left 左下

2022-04-02 22:25:25 625

原创 《Python编程:从入门到实践》项目代码(一)<外星人入侵>

windows python3目录1. alien_invasion.py2. game_functions.py3. settings.py4. ship.py5. alien.py6. bullet.py7. button.py8. game_states.py9. scoreboard.py1. alien_invasion.pyimport sysimport pygamefrom settings import Settingsfrom ship import Shipfrom al

2022-03-27 16:46:01 291

原创 《Python编程:从入门到实践》笔记(四)<文件及异常处理>

目录一、从文件中读取数据1、读取整个文件2、文件路径3、逐行读取4、创建一个包含文件各行内容的列表5、使用文件的内容二、写入文件1、写入空文件2、写入多行3、附加到文件三、储存数据使用json.dump() 和json.load()四、异常处理1、使用try-except 代码块2、使用异常避免崩溃3、使用 pass一、从文件中读取数据要使用文本文件中的信息,首先需要将信息读取到内存中。可以一次性读取文件的全部内容,也可以以每次一行的方式逐步读取。创建一个文件, 它包含精确到小数点后30位的圆周率值,

2022-03-24 15:22:33 719

原创 《Python编程:从入门到实践》笔记(三)<类>

面向对象编程是最有效的软件编写方法之一。在面向对象编程中,你编写表示现实世界中的事物和情景的类,并基于这些类来创建对象。编写类时,你定义一大类对象都有的通用行为。基于类创建对象时,每个对象都自动具备这种通用行为,然后可根据需要赋予每个对象独特的个性。使用面向对象编程可模拟现实情景,其逼真程度达到了令你惊讶的地步。根据类来创建对象被称为实例化,这让你能够使用类的实例。在本章中,你将编写一些类并创建其实例。你将指定可在实例中存储什么信息,定义可对这些实例执行哪些操作。你还将编写一些类来扩展既有类的功能,让相似

2022-03-18 16:21:40 736

原创 《Python编程:从入门到实践》笔记(二)<函数与模块>

函数是带名字的代码块,用于完成具体的工作。要执行函数定义的特定任务,可调用该函数。需要在程序中多次执行同一项任务时,无需反复编写完成该任务的代码,而只需调用执行该任务的函数,让Python运行其中的代码。目录一、定义函数向函数传递信息实参和形参二、传递实参位置实参关键字实参默认值三、返回值让实参变成可选的返回字典四、传递列表访问列表修改列表五、传递任意数量的实参使用任意数量的关键字实参六、模块导入整个模块导入模块中的特定函数使用as 给函数指定别名导入模块中的所有函数七、函数编写指南一、定义函数使用关

2022-03-17 23:07:41 155

原创 《Python编程:从入门到实践》笔记(一)<基础语法>

目录一、变量和简单数据类型注释变量命名规则字符串1、使用方法修改字符串的大小写2、合并(拼接)字符串3、制表符及换行符4、删除空白5、避免语法错误数字1、整数2、浮点数3、使用函数str() 避免类型错误Python之禅二、列表1、访问列表2、修改、添加和删除元素3、组织列表4、操作列表5、列表解析6、切片三、元组1、定义元组2、修改元组变量四、if 语句1、条件测试2、检查特定值是否包含在列表中3、简单的if 语句4、if-else 语句5、if-elif-else 结构五、字典1、定义字典2、使用字典3

2022-03-17 22:27:35 634

原创 Hadoop核心组件详解—HDFS、YARN、MapReduce

Hadoop 是一个开源的分布式计算和存储框架,它的作用非常简单,就是在多计算机集群环境中营造一个统一而稳定的存储和计算环境,并能为其他分布式应用服务提供平台支持,相当于在某种程度上将多台计算机组织成了一台计算机。Hadoop 框架最根本的原理就是利用大量的计算机同时运算来加快大量数据的处理速度。Hadoop 集群可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点。适合一次写入,多次读取的场景,不适合频繁修改文件及大量的小文件和低延时的数据访问。本文将对Hadoop 的三大核心组件进行介绍

2022-03-12 00:48:04 8303 1

原创 hive调优—通用优化策略

本文从hql 语句和参数设置两个方面入手,介绍一些可以通用的优化策略。至于map 和reduce 数量的调整暂不叙述。文章目录一、join优化1. 小表连大表2. join 相同条件放在一起3. mapjoin4. 桶表连接优化5. 使用left-semi join6. 谓词下推7. join 字段显式类型转换二、group by优化1. 数据倾斜2. map 端聚合三、order by优化四、本地模式五、读取数据不启用MapReduce六、JVM重用七、设置并行八、开启严格模式九、小文件优化十、建表优化

2022-03-07 18:41:37 1784

原创 hive开窗/窗口函数

想象这样一种场景,既想保留所有数据,又想得到按某几列分组的聚合值,或者再对数据进行排序,要如何实现呢?这时候开窗函数就有了用武之地,聚合函数每组只保留一个值,而开窗函数可以在不减少原表行数的情况下,实现分组和排序的功能。目录语法规则排位函数聚合函数偏移函数分布函数语法规则窗口函数 over (partition by <用于分组的列名> order by <用于排序的列名> [desc] <倒序排列>)排位函数括号里留空,不写参数rank() 相等的值排

2022-03-05 17:10:09 2327

原创 hive复杂类型数据详解—array,map,struct

hive复杂数据类型有三种,map,array,struct。本文会详细介绍三种类型数据的建表、查询、相关函数以及与其他数据类型的相互转换。目录一、简介二、建表语句三、类型构建四、查询array类型map类型struct类型五、与其他数据类型转换将array和map转化为基本数据类型(行转列)基本数据类型转化为array、map(列转行)一、简介map 是一种(key-value)键值对类型;array 是一种数组类型,array 中存放相同类型的数据;struct 是一种集合类型。二、建表语句

2022-03-03 22:18:02 22383 1

原创 零基础学习hive(简单实用)

hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。hive本身并不存储数据,数据存储在hdfs上。hadoop以及hive的安装可以查看:https://blog.csdn.net/weixin_40474941/article/details/123132371通过这篇文章你可以

2022-03-01 17:26:24 3097

原创 零基础CDH5Hadoop安装及踩坑实践(附资源)

@[TOC]一、安装配置虚拟机(1)安装1个master和2个slave节点VMware及CentOS安装步骤参考:https://blog.csdn.net/m0_50519965/article/details/116175873按照以上步骤安装好虚拟机之后会遇到一下几个问题:1.在CM上安装主节点parcel的时候提示磁盘空间不足,因此建议master节点的磁盘空间增加到40G或60G,我的配置是内存磁盘master8G60Gslaver1\slaver22

2022-02-26 16:24:33 2197 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除