自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(83)
  • 收藏
  • 关注

原创 rsync 命令以及脚本使用

rsync 是一个远程同步工具。

2023-08-07 10:39:06 601

原创 11.Maxwell 部署

(2)启动三台主题的kafka。

2023-03-07 16:37:47 617 1

原创 10.Clickhouse 单机部署

大约156行找到 :: 的配置项,取消注释,这样就同时支持IPv4和IPv6了。(一般都用这种方式)也可以选择取消注释0.0.0.0,就仅支持IPv4,不允许IPv6。配置完成后,输入自己的主机名加8123端口即可远程访问。在依次解压第四个并执行即可。按照题目修改为 9001。

2023-03-07 16:31:50 603

原创 9.Hbase 部署

HBase作为基于Hadoop的列式数据库,在成功启动HBase服务后,进入HBase交互界面(hbase shell),尝试创建表(并列族名)和插入、删除数据。master主机上Zookeeper和Hadoop。

2023-03-07 16:29:24 453

原创 hive笔记

他们两个可以结合使用from_unixtime( unix_timestamp(date_created) , ‘yyyy-MM-dd HH:mm:ss’ )来规范时间的格式。[在这里插入图片描述](https://img-blog.csdnimg.cn/641274b59c85471e837c4ff144347938.png。collect_list(col): 不去重,汇总字段,返回array型字段。collect_set(col):去重汇总字段,返回array型字段。,产生array型字段。

2022-10-31 20:51:36 770

原创 季度、季节

季度是指我们把一年平均分成四份(指春夏秋冬),也就是人们俗称的季节。一季度: Q1(quarter 1st)二季度: Q2(quarter 2nd)三季度: Q3(quarter 3rd)四季度: Q4(quarter 4th)一季度:12月21日—3月31日。二季度: 3月21日—6月30日。三季度: 6月21日—9月30日。四季度:9月21日—12月21日。

2022-10-31 20:47:57 523

原创 hadoop完全分布式、伪分布、单机

2.slaves 文件不需要设置其他从节点,比如slave1,slave2,只需要把自己的主机名加进去。可以使用ssh客户端工具的MultiExec来做(确保每台机器都在~家目录)1.涉及到其他机器的拷贝,分发都不用。在master主节点显示五个进程。从节点slave显示三个进程。在slave节点运行命令。

2022-10-22 16:28:24 997

原创 SparkCore

RDD叫做弹性分布式数据集,是Spark中最基本的数据处理模型。代码中是一个抽象类,他代表一个弹性的、不可变的、可分区的,里面的原元素可以并行计算的集合。默认分区数是自己cpu的核心数。start:当前的分区号。

2022-09-27 15:22:55 651

原创 Python数据分析和挖掘之入门理论+实操

n的范围为:1.5倍 - 3倍四分位间距:上四分位数 - 下四分位数上界:上四分位数 + n* 四分位间距下界:下四分位数 - n* 四分位间距上下界之间的我们可以叫做正常值,以外的我们可以叫做异常值1、saticfaction_level(满意度) 字段分析依次为:满意度、最近的一次评价、做的项目数量、每个月的工作时长、在公司的时间、是否发生事故、是否最近有离职、最近五年是否有提升、部门、薪水去掉异常值满意度isnull():可以列出是否有空值可以看出至少有两个。

2022-09-09 16:24:29 1484

原创 Python数据分析及展示之Matplotlib

取消警告解决乱码设置散点得形状剩余得网上搜索

2022-09-03 13:10:49 478

原创 Python之Pands数据分析,从0到掌握

df . fillna("未知电影") >> 这个会吧所有的缺失值 都改为 设定的值。

2022-08-22 14:08:08 1142

原创 什么是数据描述统计分析指标?

例如一个人的身高的真实值是180,但利用不同的仪器或者同一个仪器经过多次测量,有181,179,182,180等,把多次测量的这些所有数字进行平均,就是均值。所有数减去其平均值的平方和,所得结果除以该组数之个数(或个数减一,即变异数),再把所得值开根号,所得之数就是这组数据的标准差。方差是和中心偏离的程度,用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)并把它叫做这组数据的方差,记作S2。{苹果,苹果,香蕉,橙,橙,橙,桃},这一组数据,没有什么均值、中位数可言,但是存在着众数——橙。

2022-08-20 15:02:37 1568

原创 大数据集群配置(电)

还要修改ip地址,这里我第一台是192.168.87.211,为了记忆,IP地址就顺次下移吧,也就是212和213。记录一下三个信息,用作配置IPADDR(ip地址)、NETMASK(子网掩码)、GATEWAY(网关)此时,无论是ping本地,还是ping百度,都可以连上网。首先,在我们需要做免密的机器本体上生成自己的公钥密钥。其他地方不变,修改之后,wq!这里需要重启一下,在查看一下状态。事先说明,需要修改的几个东西。输入命令,登录要连接的主机。首先解压jdk安装包,命令。修改完成以后,重启网卡。....

2022-08-13 16:35:38 1710

原创 excel函数从0到掌握(官方文档+自我解析)

如果 range_lookup 为TRUE或1,函数 VLOOKUP 将查找近似匹配值,也就是说,如果找不到精确匹配值,则返回小于 lookup_value 的最大数值。SUMIFS函数可以根据实际需求不断增加条件区域和对应的条件,实现对同时满足多个条件下的数据进行汇总,其中每一对条件区域和条件要彼此匹配,多对条件区域和条件之间的顺序可以互换,不影响计算结果。也就是countif(区间,条件),值得注意的是,像我们这种初学excel函数的人,对语法不太熟悉,这里写条件,......

2022-08-02 13:43:13 1554

原创 Exception in thread “main“ java.lang.NoClassDefFoundError: javax/servlet/Servlet

错误原因缺少jar包jar包冲突解决方法先查看pom文件中是否引入了对应的依赖,如果没有的话,需要引入:特别注意!!!如果是从上面获取的依赖记得要这一行,我就是网上找了几百种方法,才发现是这个问题!...

2022-07-29 12:05:07 4572

原创 Python之Numpy,从0到掌握(偏向实战+源码+赛前抱佛脚)

NumPy是python语言的第三方库,支持大量高维度的数组和矩阵计算,此外,numpy也针对数组提供了大量的数学函数,机器学习涉及大量对数组的变换和运算,numpy就成了必不可少的工具之一。写到这的时候,真的给我整笑了,我是看别人的文章然后在自己总结,我看到这题目给我弄不会了,等差数组?难道是设置范围他自己给我生成?首先:创建一维数组,变不了。......

2022-07-22 15:15:02 1312

原创 Hadoop从0到掌握

主要记录了Hadoop各个组件的基本原理,处理过程和关键的知识点等,包括HDFS、YARN、MapReduce等。分析需要从不同的硬盘读取数据:MapReduce而Hadoop提供了1.可靠的共享存储(分布式存储)2.抽象的分析接口(分布式分析)不能使用一台机器 进行处理的数据大数据的核心是样本 = 总体1.数据分布在多台机器可靠性:每个数据块都复制到多个节点性能:多个节点同时处理数据2.计算随数据走网络IO速度 ...

2022-06-28 17:13:50 1180

原创 Win11安装redis 数据库以及redis desktop manager的下载

redis 数据库以及redis desktop manager的下载下载网址:https://github.com/microsoftarchive/redis/tags1、首先进入网址,如图:2、点击Releases,切换显示界面3、下载最新版本(zip格式,随便放在哪 对路径没得要求)4、下载完成后解压,如图:5、启动服务器端5.1 复制我们解压文件路径(我这就是D:Scrapy-redis数据库)5.2 WIN加R打开一个命令窗口,将当前目录切换到 我们自己解压的路径下(下面以我的目录为例)5

2022-06-28 15:31:42 4493 2

原创 Windows环境下安装MongoDB数据库

​​​要想直接操作MongoDB数据库,需要在系统中安装它。这里以Windows系统为例,讲解如何从官网中下载MongoDB,井且安装和配置到电脑上,具体步骤如下:1、打开MongoDB下载网站(按住control并单击),进入到官方网站(如图所示):2、选择下载的版本:一般都是推荐下载最新版本(进去默认第一个就是最新版本),如果个别电脑后续不行,推荐下载老版本使用3、弹出下载提示框4、下载完成之后运行刚才我们下载的文件并点击下一步(next):5、勾选 我同意 单击下一步6、点击 Cus

2022-06-28 15:24:33 7660 6

原创 词性家族

英语10类词性

2022-06-18 20:07:20 148

原创 hive之beeline客服端、hiveserver2

Hiveserver2简称hs2,是一个允许多客服端并发连接的hive服务,客户端可通过jdbc,odbc去连接此服务操作hive,那对于之前启动的hive窗口,单纯只是一个客户端,exit之后他就停止了。

2022-06-17 11:16:28 610

原创 查看Hadoop的版本号

hadoop version

2022-06-17 10:49:33 3697

原创 selenium读取本地HTML文件

selenium读取本地HTML文件格式例子格式file:/// +本地文件的绝对路径例子driver.get("file:///D:/专业文件/Vue/简单测试/index.html")

2022-05-27 18:23:26 1296 2

原创 selenium从0到掌握

selenium从0到掌握简介安装安装相应的浏览器驱动不自动关闭浏览器定位语法单个元素`element` 多个元素`elements` 多一个sid定位name 定位class 定位tag 定位(标签)css定位linkpartial_link 定位by类定位导入类具体语法By定位与8种基本定位方法类比浏览器控制修改浏览器窗口大小浏览器的前进、后退浏览器刷新浏览器窗口切换webdriver 常见操作例子鼠标控制常见方法单击左键右击双击拖动鼠标悬停键盘控制定义导入类常见的操作Keys类设置元素等待定义exp

2022-05-26 13:23:16 879

原创 spark分区(partitionby方法)基于词频统计

spark分区(partiionby方法)为什么要定义分区?定义分区类继承的类重写的方法项目结构源数据主程序partition类(分区功能)结果:local的分区数比我们自定义的分区类低,也就是优先按照自定义分区类分区为什么要定义分区?在分布式程序中, 数据通信会增加非常大的开销,spark可以控制分区来减少通信的开销定义分区类继承的类Partitioner重写的方法numPartitions: 分区的数量getPartition :用于对key进行处理 并返回相应的分区id项

2022-05-25 14:38:04 619

原创 DecimalFormat 格式化函数

DecimalFormat 格式化函数示例示例object Test1 { def main(args: Array[String]): Unit = { val pi = 3.1415927 //取一位整数 println(new DecimalFormat("0").format(pi)) //3 //取一位整数和两位小数 println(new DecimalFormat("0.00").format(pi)) //3.14 //取两位整数和

2022-05-18 08:39:23 223

原创 记一次SpringBooT静态资源放行错误(状态码302)以及访问controller的三种方法

302错误问题解决访问controller三种方法for表单的actiona标签的href图片之类的src问题在学习 spring上传头像功能时候,遇到302图片错误,如图:解决在这里,我百思不得其解,因为我 认为资源也是页面的一部分,我放行了页面,为什么资源不能加载在看我们的项目:我们这里 通过src引用图片的路径,从而得出图片的加载,但是 因为我们写了拦截器,如图:我们虽然对我们的资源显示页面进行了放行,如图:但是!我们知道拦截器是对controller进行拦截,我们写的src也

2022-05-17 14:24:32 2711

原创 Union、Join语句

Union、Join语句Union定义语法Join示例表定义语法连接属性[outer]join(内连接)定义例子Left[outer]join (左[外]连接)定义例子Right [outer]join(右[外]连接)定义例子Full [outer]join(全[外]连接)定义例子left semi join(左半连接)定义例子cross join (笛卡尔关联)定义例子Union定义Union 语句用于将多个select语句的结果集合并为一个结果集语法--union[all|distinc

2022-05-13 10:40:39 990

原创 Python正则表达式

python正则表达式一、什么是正则表达式?re库常见函数1、re.match定义函数语法例子2、re.search定义语法例子3、re.findall 和re.finditerfindall定义finditer定义两语法一样例子4、re.sub定义语法例子compile 函数定义语法例子re.split定义语法例子二、正则表达式修饰符-可选标志定义三、正则表达式模式(特殊写法)四、特殊元素一、什么是正则表达式?正则表达式是一个特殊的字符序列,用来判断一个字符串与我们所设定的字符序列是否相匹配。实现快速

2022-05-09 20:49:26 685

原创 记一次HIve作业(数据表创建时加载数据,各复杂类型取值)

数据表创建时加载数据,各复杂类型取值源数据操作步骤总结定义格式符时我不熟悉,下面我在打一遍,定义的顺序不能变各类型取值源数据操作步骤-- 1:在虚拟机 /opt/software 下创建student_exam.txt 并添加内容-- 2:将 student_exam.txt 文件上传到/hive_data/data/student_exam/ 下-- 3:根据数据的结构 创建考试成绩表 student_exam_table-- student_name 学生姓名 -- intent

2022-05-08 13:14:55 651

原创 Hive复杂数据类型取值

Hive复杂数据类型取值复杂运算符支持数据类型描述字段名[n]ARRAY返回下标为n的元素map[key]MAP返回key的值字段名.xSTRUCT返回指定字段的值

2022-05-06 11:07:12 725

原创 Hive数据操作(DML)

DML------------------------------------- 关键字尽量大写,这里我是方便本人记忆--------------------------------------load data普通表本地文件HDFS文件分区表------------------------------------- 关键字尽量大写,这里我是方便本人记忆--------------------------------------load data普通表本地文件--本地文件 要加 localloa

2022-04-24 14:26:40 2077

原创 全网最细之HiveQL语句操作

Hive相关操作关键字应该大写 但是本人小写容易记忆 所以本篇为小写.数据库查看数据库表查看表修改表名添加n列修改列名称、类型、位置单独修改列名 数据类型替换列(会删除原来的所有列)修改表的注释map、array、struct,建表语句应该怎么指定分隔符例子、解释删除表关键字应该大写 但是本人小写容易记忆 所以本篇为小写.数据库查看数据库1:desc database 数据库名2:desc database extended 数据名 查看数据库详细信息表查看表1:desc 表名

2022-04-13 20:33:18 2743

原创 Hive数据类型

Hive数据类型支持的类型原始数据类型注意DATE类型整数类型小数、Boolean、二进制文本类型时间类型类型转换隐式转换显示转换(CAST函数)复杂数据类型详解ARRAY和MAPSTRUCTUNION实例支持的类型hive支持两种数据类型:原始数据类型、复杂数据类型原始数据类型原始数据类型包括数据型,布尔型,字符串型,具体如下表:类型描述示例TINYINT(tinyint)一个字节(8位)有符号整数, -128~1271SMALLINT(smallint)

2022-04-11 16:49:54 16257

原创 springboot整合thymeleaf启动错误

错误图:可以看见提示错误是 datasource,原因是 我上一次项目是整合mybatis,pom文件没有删除数据库得依赖,删除相关依赖即可!

2022-04-11 10:41:18 487

原创 IntelliJ IDEA 代码格式化,快捷键

IntelliJ IDEA 代码格式化,快捷键常规调试部分、编译重构查找VCS常规Ctrl+Shift + Enter:语句完成/Alt+Enter :代码提示完成“!”:否定完成,输入表达式时按 “!”键Ctrl+E:最近的文件Ctrl+Shift+E:最近更改的文件Shift+Click:可以关闭文件Ctrl+[ OR ]:可以跑到大括号的开头与结尾Ctrl+F12:可以显示当前文件的结构Ctrl+F7:可以查询当前元素在当前文件中的引用,然后按 F3 可以选择Ctrl+N:可以快

2022-04-02 17:07:06 9442

原创 记一次SpringBoot操作redis报错 Error creating bean with name ‘dataSource‘ defined in class path resource解决方法

错误详情:创建名为“dataSource”的bean时,在类路径resource中定义了错误。通过工厂方法实例化Bean失败;嵌套异常是org.springframework.beans。BeanInstantiationException:无法实例化[com.zaxxer.hikari.]HikariDataSource:工厂方法’dataSource’抛出异常解决方法:在测试启动项加上注解 @EnableAutoConfiguration(exclude={DataSourceAutoConfig

2022-04-02 11:22:56 1818

原创 java列表

2022-04-02 11:20:39 418

原创 schematool -dbType mysql -initSchema hive初始化错误

hive你们出现这个情况的话 而且已经重启了,要检查这些:(1)是否将MySQL的JDBC驱动拷贝到Hive的lib目录下:(2)hive-site.xml文件,文件内容里面:用户名和密码要写对 还有是自己的ip地址 192.168.87.201(3)Hive环境变量是否配置无误,最重要的一点是配置好环境变量后一定要先source下:(当然这条下一步才做,这条可以先忽略)source /etc/profile如果上面都没错的话(我也没错):先做下一步,就是:记得 source /etc

2022-03-24 14:46:10 4163

原创 Spring boot 提示“Whitelabel Error Page”

spring出现下图的错误:首先有以下可能:1、端口错误由于我近期学习了 自定义环境,可以随意切换开发的环境,我们记得地址框输入的时候,要改成自己的端口号2、GetMapping 书写错误此处也要和地址栏一一对应3、controller 和我们的启动类不在同包下这个问题我弄了好久,这背时的同一目录下,童鞋们!必须在同一目录!下,如:...

2022-03-21 11:00:58 4225 8

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除