自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

指针先生

指针的进化之路

  • 博客(68)
  • 收藏
  • 关注

原创 HiveSQL之lateral view

lateral view是hiveQL中的一个高级功能,用于和表生成函数一起,来处理嵌套数组和结构的数据,特别是在处理复杂的数据结构如JSON或数组内嵌套数组时特别有用。它允许用户在每一行上应用TGF(表生成函数),将生成的元素作为多行返回,或者多列返回。

2024-04-08 22:17:28 335

原创 数据透视进阶:切片器关联与二次计算

右键切片器--选择报表连接。将想要连接的表关联在切片器。

2024-03-23 07:54:37 140

原创 数据透视表进阶:多维数据透视表与案例演示

同比指的是:和去年比环比指的是:和上个月比数据透视表消失了:点击字段列表。

2024-03-23 07:54:08 245

原创 统计学第1天

数值会发生变化的量,特点是从一次观察到下一次观察结果呈现出差别(变化)。变量的具体取值称为变量值。

2024-03-20 22:00:01 712

原创 数据透视表之占比、对比与组合显示

右键----值显示方式----百分比-----选择安徽省作为基准(数据百分比都是通过和安徽除安徽得到)市的父级是省,父行百分比就是一个省是一个单位,里面每个市占比多少。右键----值显示方式----按照月份。一列、一行或者整个表作为单位1。右键--折叠--折叠整个字段。

2024-03-20 07:40:04 315

原创 MySQL之窗口函数

窗口函数:窗口、函数(应用在窗口内的函数)窗口类似窗户、限定一个空间。那什么叫窗口呢?窗口的概念非常重要,可以理解为记录集合,窗口函数也就是在满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗口内执行,窗口的大小是固定的,这种属于静态窗口;不同的记录对应着不同的窗口,这种动态变化的窗口叫做滑动窗口。窗口函数的基本用法如下:函数名(开窗字段) over(子句);

2024-03-19 22:00:41 1935

原创 Excel数据可视化

1、选中数据----点击插入----点击饼图2、更改数据标签(修改标题名直接改就行)

2024-03-18 22:26:41 261

原创 Excel之数据透视表

(1)选择要创建数据透视表的数据------插入----选择数据透视表(2)选择现有工作表然后点击目标表选择合适的位置插入。

2024-03-18 22:14:04 553

原创 DolphinScheduler安装与配置

Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。DolphinScheduler的主要角色如下:采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交、任务监控,并同时监听其它MasterServer和WorkerServer的健康状态。也采用分布式无中心设计理念,WorkerServer主要负责任务的执行和提供日志服务。

2024-02-14 21:36:48 1256

原创 Hive on Spark配置

说明2:Hive任务最终由Spark来执行,Spark任务资源分配由Yarn来调度,该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径,这样集群中任何一个节点都能获取到。说明1:采用Spark纯净版jar包,不包含hadoop和hive相关依赖,能避免依赖冲突。1、解压spark-3.3.1-bin-without-hadoop.tgz。2、修改spark-env.sh配置文件。--Spark依赖位置(注意:端口号。--Hive执行引擎-->source 使其生效。

2024-02-14 21:21:11 1753 1

原创 Hive安装部署

4、解决日志Jar包(改成备用)冲突,进入/opt/moudle/hive/lib目录。--配置Hive保存元数据信息所需的 MySQL URL地址-->1、解压hive-3.1.3.tar.gz到/opt/module/目录下面。在$HIVE_HOME/conf目录下新建hive-site.xml。2、修改hive-3.1.3-bin.tar.gz的名称为hive。--配置Hive连接MySQL的驱动全类名-->--配置Hive连接MySQL的用户名 -->--配置Hive连接MySQL的密码 -->

2024-02-10 10:08:52 1025

原创 Kafka集群安装与部署

(2)依次在hadoop102、hadoop103、hadoop104节点上启动Kafka。(1)依次在hadoop102、hadoop103、hadoop104节点上停止Kafka。(1)在/etc/profile.d/my_env.sh文件中增加kafka环境变量配置。(1)先启动Zookeeper集群,然后启动Kafka。(3)分发环境变量文件到其他节点,并source。集群就没有办法再获取停止进程的信息,只能手动杀死。(2)刷新一下环境变量。(每个节点单独配置)(每个节点单独配置)

2024-02-10 10:06:53 1419

原创 Flume安装部署

(1)将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下。(2)解压apache-flume-1.10.1-bin.tar.gz到/opt/moudle/目录下。(3)修改apache-flume-1.10.1-bin的名称为flume。(4)修改conf目录下的log4j2.xml配置文件,配置日志文件路径。(5)分发flume(当前位置/opt/moudle/)# 引入控制台输出,方便学习查看日志。

2024-02-09 09:25:11 1361

原创 Linux上MySQL安装部署

(4)执行/opt/software/mysql/目录下install_mysql.sh。(1)卸载MySQL依赖,虽然机器上没有装MySQL,但是这一步。输入mysql -uroot -p123456。(3)切换到hadoop102的root用户。#更改密码级别并重启MySQL。将安装包上传到mysql目录。我一直是用root用户操作的。# 安装并启动MySQL。# 更改MySQL配置。(2)下载依赖并安装。

2024-02-09 09:23:41 550

原创 Zookeeper集群搭建(3台)

1、重命名/opt/module/zookeeper/conf目录下的zoo_sample.cfg为zoo.cfg。3、同步/opt/module/zookeeper目录内容到hadoop103、hadoop104。2、在/opt/module/zookeeper/zkData目录下创建一个myid的文件。1、在/opt/module/zookeeper/目录下创建zkData。1、解压Zookeeper安装包到/opt/module/目录下。切换到/opt/module目录下。

2024-02-08 08:32:35 940

原创 Hadoop集群所有进程查看脚本

1、在/home/atguigu/bin目录下创建脚本xcall.sh。相当于在三台节点同时运行jps。2、赋予文件运行权限。

2024-02-08 08:30:19 209

原创 CentOS7搭建Hadoop集群

10、部署完成可以通过start-all.sh和stop-all.sh控制Hadoop-HA所有节点的启停。-- 配置该user(superUser)允许通过代理访问的主机节点 -->-- 把多个NameNode的地址组装成一个集群mycluster -->-- 配置该user(superUser)允许通过代理用户所属组 -->-- 配置该user(superUser)允许通过代理的用户-->-- 指定hadoop运行时产生文件的存储目录 -->-- 配置HDFS网页登录使用的静态用户为user -->

2024-02-07 09:05:42 2101 1

原创 CentOS7集群安装JDK1.8

3、分别再Hadoop102、Hadoop103、Hadoop104执行刷新配置文件。3、解压jdk的tar包到/opt/moudle目录。4、切换到/opt/moudle查看解压后的文件。2、将jdk上传到software文件夹里面。1、在虚拟机hadoop102新建两个目录。4、验证jdk是否安装成功。到此集群安装jdk完成!5、分发解压好的JDK。

2024-02-07 08:49:41 630

原创 集群分发脚本xsync

rsync是 "remote synchronization" 的简写,这个工具主要用于远程和本地系统之间同步文件和目录,优化了数据传输过程,只传输变化的部分。它被广泛应用于备份操作、镜像制作以及其他需要文件或目录同步的场景。rsync在功能丰富且高效的同时,也保证了传输安全性。

2024-02-06 08:30:18 620

原创 CentOS7集群配置免密登录

3、可以看到在家目录下面的.ssh目录中生成了两个文件,id_rsa(私钥)、id_rsa.pub(公钥)5、复制hadoop102机器的认证到其他机器上,在hadoop102上执行以下命令。4、将公钥复制到同一台机器hadoop102,7、配置成功后登录三台机器便不再需要输入密码了。文件中输入以下内容:IP hostname。至此三台虚拟机的免密登录配置完成~以下命令,执行命令后直接三次回车。6、测试是否可以免密登录。

2024-02-06 08:26:00 630

原创 CentOS7集群环境搭建(3台)

当安装完虚拟机之后,默认的ip分配方案为DHCP,每一次开机时的ip都是有可能不同的,这样就会导致每次远程连接都需要查看ip地址.设置为静态ip后, 当前虚拟机的ip地址就不会在发生改变,,后期配置集群相关的内容时首要的要求就是ip必须为静态, 否则由于无法得到一个准确的ip地址,集群也是构建不了的。2、分别修改三台虚拟机的名称为hadoop102、hadoop103、hadoop104,保存退出:Esc=>Shift + 冒号:=>wq。6、输入虚拟机名称,选择存储位置,点击完成。

2024-02-05 08:46:44 1096

原创 CentOS7安装教程

16、选择镜像文件所在的路径,点击关闭17、点击完成18、启动虚拟机19、选择第一个(点击进去后鼠标出不来,点击Ctrl+Alt键可以解放鼠标),然后回车20、中间如果有镜像检查,按Esc键跳过检查,等待一会后,出现如下界面,语言选择中文中的简体中文,点击继续21、点击软件选择22、选择。

2024-02-05 08:37:28 892

原创 MYSQL之锁

锁是计算机协调多个线程或者进程并发访问某一资源的机制。在数据库中除了传统的计算资源(CPU、RAM,I/O)的争用之外,数据也是一种共给多用户共享使用的资源。如何保证数据的并发访问的一致性、有效性是所有数据库必须解决的一个问题,锁冲突也是影响数据库并发访问性能的一个重要因素。从这个角度来说,锁对数据库而言显得尤为重要,也更复杂。分类:MYSQL中的锁,按照锁的粒度分为以下三大类:1、全局锁:锁定数据库中的所有表2、表级锁:每次操作锁住整张表3、行级锁:每次操作锁住对应的行数据。

2024-01-26 20:51:39 1032

原创 MYSQL之SQL优化

1、Using filesort:通过表的索引或全表扫描,读取满足条件的数据行,然后在排序缓冲区sort buffer中完成排序操作,所以只要不是通过索引排序直接返回结果的排序都叫FileSort排序。4、如果不可避免的出现file sort,大数据量排序时(缓冲区不够用的话会在磁盘排序,效率很慢),此时可以适当增大排序缓冲区大小sort_buffer_size(默认256k)页可以为空,也可以填充一半。在InnoDB存储引擎中,表数据都是根据主键顺序组织存放的,这种存储方式的表称为索引组织表。

2024-01-25 09:36:51 549

原创 MYSQL之索引语法与使用

如果索引了多列(联合索引),要遵守最左前缀法则指的是查询从索引的最左列开始,并且不跳过索引中的列。尽量使用覆盖索引(查询使用了索引,并且要返回的列能在该索引中全部找到),减少select*(要回表查询,使性能下降)using index:查找使用了索引,但需要的数据在索引列能找到,不需要回表查询。用or分隔开的条件,如果or前的条件中的列有索引,而后面的列中没有索引,那么涉及的索引豆瓣不会被用到。在业务场景中,如果存在多个查询条件,考虑针对查询字段建立索引时,建立联合索引,而非单列索引。

2024-01-22 20:39:35 1244

原创 MySQL之索引结构

索引是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。下图演示有索引和无索引的区别:备注:上述二叉树索引结构的只是一个示意图,并不是真实的索引结构。

2024-01-20 10:18:30 1287 1

原创 MYSQL之存储引擎

存储引擎就是存储数据,建立索引、更新/查询数据等技术的实现方式。存储引擎基于表,而不是基于库的,所以存储引擎也可被称为表类型。show create table 表名;创建表my_sql,并指定存储引擎为MYISAM字段1 类型,...,字段n 类型。

2024-01-19 21:31:11 533

原创 Pypputeer自动化

pyppeteer是 Python 语言的一个库,它是对 Puppeteer 的一个非官方端口,Puppeteer 是一个 Node 库,Puppeteer是Google基于Node.js开发的一个工具,它提供了一种高层次的 API 来通过 DevTools 协议控制 Chrome 或 Chromium。pyppeteer可以用来进行网页自动化处理,支持页面抓取、表单提交、UI测试、JavaScript执行等功能,非常适合用于网页爬虫或自动化测试。

2024-01-18 21:17:14 828 1

原创 决策树:理解机器学习中的关键算法

决策树是一种流行而强大的机器学习算法,它从数据中学习并模拟决策过程,以便对新的未知数据做出预测。由于其直观性和易理解性,决策树成为了分类和回归任务中的首选算法之一。在本文中,我们将深入探讨决策树的工作原理、如何构建决策树、它们的优缺点,以及在现实世界中的应用。树模型决策树:从根节点开始一步步走到叶子节点(决策)所有的数据最终都会落到叶子节点,既可以做分类也可以做回归例子:一个家庭里面找出玩游戏的人(通过年龄和性别两个特征)根节点的特征该用哪个特征?如何切分?

2024-01-14 14:08:10 1156

原创 Selenium的使用

Selenium 是一个自动化测试工具,它主要用于自动化网络应用程序的测试。不过,除了测试之外,它也常用于自动执行各种浏览器操作,比如自动填写表单、抓取网页数据、点击、下拉等。同时还可以获取浏览器当前所呈现的页面的源代码,做到可见即可爬,对于一些JavaScript动态渲染的页面来说,非常有效。

2024-01-12 23:36:52 1356

原创 网络爬虫之金融数据前后端实现

采集基金公司的数据单线程爬虫,用requests进行处理。

2024-01-04 15:47:56 844

原创 网络爬虫之多任务数据采集(多线程、多进程、协程)

进程:操作系统中资源分配的基本单位线程:使用进程资源处理具体任务一个进程中可以有多个线程:进程相当于一个公司,线程是公司里面的员工。

2023-12-22 22:09:05 1946

原创 构建简易的Python学生管理系统

student.py用来格式化字符串。

2023-12-21 10:45:43 363

原创 网络爬虫之Ajax动态数据采集

Ajax,全称为 Asynchronous JavaScript and XML,即异步的avaScript 和 XML,它不是-门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。对于传统的网页,如果想更新其内容,那么必须要刷新整个页面,但有了 Ajax,便可以在页面不被全部刷新的情况下更新其内容。在这个过程中,页面实际上是在后台与服务器进行了数据交互,获取到数据之后,再利用JavaScript 改变网页,这样网页内容就会更新了。

2023-12-21 09:36:29 3350

原创 Python第7天之异常处理:确保Python程序的鲁棒性

exceptp_16自定义异常.py文件# 定义一个用来判断当前手机号是否有非法字符的异常pass# 定义一个手机号位数是否合法的异常# 定义一个函数,用来获取电话号pn = input('请输入一个11位的手机号:')# 抛出自定义异常= 11:raise PhoneNumberLengthError('手机号位数不正确')print('输入的手机号是合法的:',pn)return '输入的手机号是合法的:' + pn处理自定义异常.py文件。

2023-12-20 11:36:24 675

原创 网络爬虫之数据存储方式(json、csv、mysql)

不过所有记录都有完全相同的字段序列,相当于一个结构化表的纯文本形式,它比 Excel 文件更加简洁,XLS 文本是电子表格,它包含了文本、数值、公式和格式等内容,而 CSV 中不包合这些内容,就是特定字符分的纯文本,结构简单清晰。数组在JavaScript 中是方括号包裹起来的内容,数据结构为["Java""JavaScript",“vb”...] 的索引结构在Javascript 中,数组是一种比较特殊的数据类型,它也可以像对象那样使用键值对,但还是索引用得多。同样,值的类型可以是任意类型。

2023-12-19 20:08:07 1835

原创 Pyhton第6天之深入理解类

在Python中定义一个类使用关键字class# 定义两个方法print('吃', food)print('每天至少睡',t,'小时')

2023-12-18 22:55:12 848

原创 网络爬虫之数据解析(正则、Pyquery、Xpath、Beautiful soup)

XPath 由 W3C 作为一个标准发布,被广泛应用于各种XML解析和处理技术中,比如在XSLT(Extensible Stylesheet Language Transformations)中选取数据,或者在Python的lxml库中解析HTML文档。match()方法会尝试从字符串开始的位置到字符结束的位置匹配正则表达式,如果匹配,返回匹配的结果,不匹配返回None。是一个用于解析HTML和XML文档的Python库,它提供了与jQuery类似的语法,使得从文档中提取信息变得简单快捷。

2023-12-17 21:58:44 1520

原创 彻底告别pip安装Python第三方库网速慢的问题

5、将pip.txt改为 pip.ini(该文件后缀名,点是)3、创建一个.txt 文件并改名为 ini.txt。直接: pip install 库名 -i。直接:pip install 库名。速度嗖嗖的(当然前提网呆好😃)2、搜索%APPDATE%6、到此就可以了~关闭文件。如果使只下载没几个库。1、打开文件资源管理器。

2023-12-16 11:15:23 582

原创 python第5天之Python中的文件操作基础

文件操作是Python编程中不可或缺的一部分。通过本文的介绍,您应该能够掌握如何在Python中进行基本的文件读取和写入操作,以及一些常见的高级文件管理技巧。实践是最好的学习方式,不妨通过一些小项目来锻炼您的文件操作技能。记住,合理运用with语句能够让您的代码更加健壮和安全。

2023-12-15 14:50:39 1464

mysql-5.7.36-winx64.zip

安装包

2023-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除