自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

指针先生

指针的进化之路

  • 博客(72)
  • 收藏
  • 关注

原创 机器学习第1天

标准正态分布是正态分布的一个标准化形式,通常用于简化问题的求解过程,在统计分析中具有重要应用。高斯分布在自然科学和社会科学中十分常见,因为许多随机变量的分布都近似是正态分布,特别是当独立随机变量的总和趋于无限时,根据中心极限定理,其分布接近正态分布。均值决定了分布的中心位置,标准差决定了分布的离散程度,即数据集中或分散的程度。正态分布是一类连续概率分布,其形状呈现为对称的钟形曲线,这种曲线被称为高斯函数或高斯钟形曲线。总结来说,所有的标准正态分布都是正态分布,但不是所有的正态分布都是标准正态分布。

2024-05-17 18:03:20 381

原创 统计学第2天

1、对总体参数的数值所作的一种陈述。总体参数包括总体均值、比例、方差等分析之前必须陈述2、事先对总体参数或分布形式做出某种假设,然后利用样本信息来判断原假设是否成立3、有参数假设检验和非参数假设检验4、采用逻辑上的反证法,依据统计上的小概率原理。

2024-05-16 09:11:34 697

原创 hive小技巧

判断两个数是否相等如果相等返回null值,如果不相等返回第一个值。和coalesce效果一样只不过val不是标准得函数。从一系列数中获取第一个不为null值得数。和上边的coalesce效果一样。

2024-05-16 08:16:52 231

原创 Git与Gitlab

文章对git做了一个大概的介绍,然后介绍github,gitee,gitlab代码托管平台,介绍gitlab安装部署,介绍gitlab与本地idea代码互通。

2024-05-15 08:53:17 1070

原创 HiveSQL之lateral view

lateral view是hiveQL中的一个高级功能,用于和表生成函数一起,来处理嵌套数组和结构的数据,特别是在处理复杂的数据结构如JSON或数组内嵌套数组时特别有用。它允许用户在每一行上应用TGF(表生成函数),将生成的元素作为多行返回,或者多列返回。

2024-04-08 22:17:28 476

原创 数据透视进阶:切片器关联与二次计算

右键切片器--选择报表连接。将想要连接的表关联在切片器。

2024-03-23 07:54:37 243

原创 数据透视表进阶:多维数据透视表与案例演示

同比指的是:和去年比环比指的是:和上个月比数据透视表消失了:点击字段列表。

2024-03-23 07:54:08 292

原创 统计学第1天

数值会发生变化的量,特点是从一次观察到下一次观察结果呈现出差别(变化)。变量的具体取值称为变量值。

2024-03-20 22:00:01 737

原创 数据透视表之占比、对比与组合显示

右键----值显示方式----百分比-----选择安徽省作为基准(数据百分比都是通过和安徽除安徽得到)市的父级是省,父行百分比就是一个省是一个单位,里面每个市占比多少。右键----值显示方式----按照月份。一列、一行或者整个表作为单位1。右键--折叠--折叠整个字段。

2024-03-20 07:40:04 1098

原创 MySQL之窗口函数

窗口函数:窗口、函数(应用在窗口内的函数)窗口类似窗户、限定一个空间。那什么叫窗口呢?窗口的概念非常重要,可以理解为记录集合,窗口函数也就是在满足某种条件的记录集合上执行的特殊函数。对于每条记录都要在此窗口内执行,窗口的大小是固定的,这种属于静态窗口;不同的记录对应着不同的窗口,这种动态变化的窗口叫做滑动窗口。窗口函数的基本用法如下:函数名(开窗字段) over(子句);

2024-03-19 22:00:41 3550

原创 Excel数据可视化

1、选中数据----点击插入----点击饼图2、更改数据标签(修改标题名直接改就行)

2024-03-18 22:26:41 286

原创 Excel之数据透视表

(1)选择要创建数据透视表的数据------插入----选择数据透视表(2)选择现有工作表然后点击目标表选择合适的位置插入。

2024-03-18 22:14:04 886

原创 DolphinScheduler安装与配置

Apache DolphinScheduler是一个分布式、易扩展的可视化DAG工作流任务调度平台。致力于解决数据处理流程中错综复杂的依赖关系,使调度系统在数据处理流程中开箱即用。DolphinScheduler的主要角色如下:采用分布式无中心设计理念,MasterServer主要负责 DAG 任务切分、任务提交、任务监控,并同时监听其它MasterServer和WorkerServer的健康状态。也采用分布式无中心设计理念,WorkerServer主要负责任务的执行和提供日志服务。

2024-02-14 21:36:48 1854

原创 Hive on Spark配置

说明2:Hive任务最终由Spark来执行,Spark任务资源分配由Yarn来调度,该任务有可能被分配到集群的任何一个节点。所以需要将Spark的依赖上传到HDFS集群路径,这样集群中任何一个节点都能获取到。说明1:采用Spark纯净版jar包,不包含hadoop和hive相关依赖,能避免依赖冲突。1、解压spark-3.3.1-bin-without-hadoop.tgz。2、修改spark-env.sh配置文件。--Spark依赖位置(注意:端口号。--Hive执行引擎-->source 使其生效。

2024-02-14 21:21:11 1804 1

原创 Hive安装部署

4、解决日志Jar包(改成备用)冲突,进入/opt/moudle/hive/lib目录。--配置Hive保存元数据信息所需的 MySQL URL地址-->1、解压hive-3.1.3.tar.gz到/opt/module/目录下面。在$HIVE_HOME/conf目录下新建hive-site.xml。2、修改hive-3.1.3-bin.tar.gz的名称为hive。--配置Hive连接MySQL的驱动全类名-->--配置Hive连接MySQL的用户名 -->--配置Hive连接MySQL的密码 -->

2024-02-10 10:08:52 1038

原创 Kafka集群安装与部署

(2)依次在hadoop102、hadoop103、hadoop104节点上启动Kafka。(1)依次在hadoop102、hadoop103、hadoop104节点上停止Kafka。(1)在/etc/profile.d/my_env.sh文件中增加kafka环境变量配置。(1)先启动Zookeeper集群,然后启动Kafka。(3)分发环境变量文件到其他节点,并source。集群就没有办法再获取停止进程的信息,只能手动杀死。(2)刷新一下环境变量。(每个节点单独配置)(每个节点单独配置)

2024-02-10 10:06:53 1452

原创 Flume安装部署

(1)将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下。(2)解压apache-flume-1.10.1-bin.tar.gz到/opt/moudle/目录下。(3)修改apache-flume-1.10.1-bin的名称为flume。(4)修改conf目录下的log4j2.xml配置文件,配置日志文件路径。(5)分发flume(当前位置/opt/moudle/)# 引入控制台输出,方便学习查看日志。

2024-02-09 09:25:11 1367

原创 Linux上MySQL安装部署

(4)执行/opt/software/mysql/目录下install_mysql.sh。(1)卸载MySQL依赖,虽然机器上没有装MySQL,但是这一步。输入mysql -uroot -p123456。(3)切换到hadoop102的root用户。#更改密码级别并重启MySQL。将安装包上传到mysql目录。我一直是用root用户操作的。# 安装并启动MySQL。# 更改MySQL配置。(2)下载依赖并安装。

2024-02-09 09:23:41 571

原创 Zookeeper集群搭建(3台)

1、重命名/opt/module/zookeeper/conf目录下的zoo_sample.cfg为zoo.cfg。3、同步/opt/module/zookeeper目录内容到hadoop103、hadoop104。2、在/opt/module/zookeeper/zkData目录下创建一个myid的文件。1、在/opt/module/zookeeper/目录下创建zkData。1、解压Zookeeper安装包到/opt/module/目录下。切换到/opt/module目录下。

2024-02-08 08:32:35 1123

原创 Hadoop集群所有进程查看脚本

1、在/home/atguigu/bin目录下创建脚本xcall.sh。相当于在三台节点同时运行jps。2、赋予文件运行权限。

2024-02-08 08:30:19 271

原创 CentOS7搭建Hadoop集群

10、部署完成可以通过start-all.sh和stop-all.sh控制Hadoop-HA所有节点的启停。-- 配置该user(superUser)允许通过代理访问的主机节点 -->-- 把多个NameNode的地址组装成一个集群mycluster -->-- 配置该user(superUser)允许通过代理用户所属组 -->-- 配置该user(superUser)允许通过代理的用户-->-- 指定hadoop运行时产生文件的存储目录 -->-- 配置HDFS网页登录使用的静态用户为user -->

2024-02-07 09:05:42 3296 1

原创 CentOS7集群安装JDK1.8

3、分别再Hadoop102、Hadoop103、Hadoop104执行刷新配置文件。3、解压jdk的tar包到/opt/moudle目录。4、切换到/opt/moudle查看解压后的文件。2、将jdk上传到software文件夹里面。1、在虚拟机hadoop102新建两个目录。4、验证jdk是否安装成功。到此集群安装jdk完成!5、分发解压好的JDK。

2024-02-07 08:49:41 712

原创 集群分发脚本xsync

rsync是 "remote synchronization" 的简写,这个工具主要用于远程和本地系统之间同步文件和目录,优化了数据传输过程,只传输变化的部分。它被广泛应用于备份操作、镜像制作以及其他需要文件或目录同步的场景。rsync在功能丰富且高效的同时,也保证了传输安全性。

2024-02-06 08:30:18 704

原创 CentOS7集群配置免密登录

3、可以看到在家目录下面的.ssh目录中生成了两个文件,id_rsa(私钥)、id_rsa.pub(公钥)5、复制hadoop102机器的认证到其他机器上,在hadoop102上执行以下命令。4、将公钥复制到同一台机器hadoop102,7、配置成功后登录三台机器便不再需要输入密码了。文件中输入以下内容:IP hostname。至此三台虚拟机的免密登录配置完成~以下命令,执行命令后直接三次回车。6、测试是否可以免密登录。

2024-02-06 08:26:00 760 2

原创 CentOS7集群环境搭建(3台)

当安装完虚拟机之后,默认的ip分配方案为DHCP,每一次开机时的ip都是有可能不同的,这样就会导致每次远程连接都需要查看ip地址.设置为静态ip后, 当前虚拟机的ip地址就不会在发生改变,,后期配置集群相关的内容时首要的要求就是ip必须为静态, 否则由于无法得到一个准确的ip地址,集群也是构建不了的。2、分别修改三台虚拟机的名称为hadoop102、hadoop103、hadoop104,保存退出:Esc=>Shift + 冒号:=>wq。6、输入虚拟机名称,选择存储位置,点击完成。

2024-02-05 08:46:44 1283

原创 CentOS7安装教程

16、选择镜像文件所在的路径,点击关闭17、点击完成18、启动虚拟机19、选择第一个(点击进去后鼠标出不来,点击Ctrl+Alt键可以解放鼠标),然后回车20、中间如果有镜像检查,按Esc键跳过检查,等待一会后,出现如下界面,语言选择中文中的简体中文,点击继续21、点击软件选择22、选择。

2024-02-05 08:37:28 926

原创 MYSQL之锁

锁是计算机协调多个线程或者进程并发访问某一资源的机制。在数据库中除了传统的计算资源(CPU、RAM,I/O)的争用之外,数据也是一种共给多用户共享使用的资源。如何保证数据的并发访问的一致性、有效性是所有数据库必须解决的一个问题,锁冲突也是影响数据库并发访问性能的一个重要因素。从这个角度来说,锁对数据库而言显得尤为重要,也更复杂。分类:MYSQL中的锁,按照锁的粒度分为以下三大类:1、全局锁:锁定数据库中的所有表2、表级锁:每次操作锁住整张表3、行级锁:每次操作锁住对应的行数据。

2024-01-26 20:51:39 1044

原创 MYSQL之SQL优化

1、Using filesort:通过表的索引或全表扫描,读取满足条件的数据行,然后在排序缓冲区sort buffer中完成排序操作,所以只要不是通过索引排序直接返回结果的排序都叫FileSort排序。4、如果不可避免的出现file sort,大数据量排序时(缓冲区不够用的话会在磁盘排序,效率很慢),此时可以适当增大排序缓冲区大小sort_buffer_size(默认256k)页可以为空,也可以填充一半。在InnoDB存储引擎中,表数据都是根据主键顺序组织存放的,这种存储方式的表称为索引组织表。

2024-01-25 09:36:51 555

原创 MYSQL之索引语法与使用

如果索引了多列(联合索引),要遵守最左前缀法则指的是查询从索引的最左列开始,并且不跳过索引中的列。尽量使用覆盖索引(查询使用了索引,并且要返回的列能在该索引中全部找到),减少select*(要回表查询,使性能下降)using index:查找使用了索引,但需要的数据在索引列能找到,不需要回表查询。用or分隔开的条件,如果or前的条件中的列有索引,而后面的列中没有索引,那么涉及的索引豆瓣不会被用到。在业务场景中,如果存在多个查询条件,考虑针对查询字段建立索引时,建立联合索引,而非单列索引。

2024-01-22 20:39:35 1438

原创 MySQL之索引结构

索引是帮助MySQL高效获取数据的数据结构(有序)。在数据之外,数据库系统还维护着满足特定查找算法的数据结构,这些数据结构以某种方式引用(指向)数据,这样就可以在这些数据结构上实现高级查找算法,这种数据结构就是索引。下图演示有索引和无索引的区别:备注:上述二叉树索引结构的只是一个示意图,并不是真实的索引结构。

2024-01-20 10:18:30 1302 1

原创 MYSQL之存储引擎

存储引擎就是存储数据,建立索引、更新/查询数据等技术的实现方式。存储引擎基于表,而不是基于库的,所以存储引擎也可被称为表类型。show create table 表名;创建表my_sql,并指定存储引擎为MYISAM字段1 类型,...,字段n 类型。

2024-01-19 21:31:11 535

原创 Pypputeer自动化

pyppeteer是 Python 语言的一个库,它是对 Puppeteer 的一个非官方端口,Puppeteer 是一个 Node 库,Puppeteer是Google基于Node.js开发的一个工具,它提供了一种高层次的 API 来通过 DevTools 协议控制 Chrome 或 Chromium。pyppeteer可以用来进行网页自动化处理,支持页面抓取、表单提交、UI测试、JavaScript执行等功能,非常适合用于网页爬虫或自动化测试。

2024-01-18 21:17:14 889 1

原创 决策树:理解机器学习中的关键算法

决策树是一种流行而强大的机器学习算法,它从数据中学习并模拟决策过程,以便对新的未知数据做出预测。由于其直观性和易理解性,决策树成为了分类和回归任务中的首选算法之一。在本文中,我们将深入探讨决策树的工作原理、如何构建决策树、它们的优缺点,以及在现实世界中的应用。树模型决策树:从根节点开始一步步走到叶子节点(决策)所有的数据最终都会落到叶子节点,既可以做分类也可以做回归例子:一个家庭里面找出玩游戏的人(通过年龄和性别两个特征)根节点的特征该用哪个特征?如何切分?

2024-01-14 14:08:10 1180

原创 Selenium的使用

Selenium 是一个自动化测试工具,它主要用于自动化网络应用程序的测试。不过,除了测试之外,它也常用于自动执行各种浏览器操作,比如自动填写表单、抓取网页数据、点击、下拉等。同时还可以获取浏览器当前所呈现的页面的源代码,做到可见即可爬,对于一些JavaScript动态渲染的页面来说,非常有效。

2024-01-12 23:36:52 1392

原创 网络爬虫之金融数据前后端实现

采集基金公司的数据单线程爬虫,用requests进行处理。

2024-01-04 15:47:56 863

原创 网络爬虫之多任务数据采集(多线程、多进程、协程)

进程:操作系统中资源分配的基本单位线程:使用进程资源处理具体任务一个进程中可以有多个线程:进程相当于一个公司,线程是公司里面的员工。

2023-12-22 22:09:05 2064

原创 构建简易的Python学生管理系统

student.py用来格式化字符串。

2023-12-21 10:45:43 376

原创 网络爬虫之Ajax动态数据采集

Ajax,全称为 Asynchronous JavaScript and XML,即异步的avaScript 和 XML,它不是-门编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下与服务器交换数据并更新部分网页的技术。对于传统的网页,如果想更新其内容,那么必须要刷新整个页面,但有了 Ajax,便可以在页面不被全部刷新的情况下更新其内容。在这个过程中,页面实际上是在后台与服务器进行了数据交互,获取到数据之后,再利用JavaScript 改变网页,这样网页内容就会更新了。

2023-12-21 09:36:29 4061

原创 Python第7天之异常处理:确保Python程序的鲁棒性

exceptp_16自定义异常.py文件# 定义一个用来判断当前手机号是否有非法字符的异常pass# 定义一个手机号位数是否合法的异常# 定义一个函数,用来获取电话号pn = input('请输入一个11位的手机号:')# 抛出自定义异常= 11:raise PhoneNumberLengthError('手机号位数不正确')print('输入的手机号是合法的:',pn)return '输入的手机号是合法的:' + pn处理自定义异常.py文件。

2023-12-20 11:36:24 709

原创 网络爬虫之数据存储方式(json、csv、mysql)

不过所有记录都有完全相同的字段序列,相当于一个结构化表的纯文本形式,它比 Excel 文件更加简洁,XLS 文本是电子表格,它包含了文本、数值、公式和格式等内容,而 CSV 中不包合这些内容,就是特定字符分的纯文本,结构简单清晰。数组在JavaScript 中是方括号包裹起来的内容,数据结构为["Java""JavaScript",“vb”...] 的索引结构在Javascript 中,数组是一种比较特殊的数据类型,它也可以像对象那样使用键值对,但还是索引用得多。同样,值的类型可以是任意类型。

2023-12-19 20:08:07 2249

mysql-5.7.36-winx64.zip

安装包

2023-11-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除