自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 卷积与图像卷积操作

教材上的卷积公式如下图:f(t)代表进水量,表示t时刻进入的水量g(x-t)代表排水量,表示t时刻进入的水量,在x时候还剩多少(%)上面说的只是特殊情况,即使只有三个时间点有进水,而在实际情况下我们的水池是每个时刻都会有进水,所以我们需要累加x时刻之前的每一个时刻的剩余量,得到以下公式:结合两个函数我们有以下分析:以t时刻为例,表示这个时刻刚刚进水还没有开始排,所以对应着g(t)中的A点。而t-1时刻到t时刻已经过去了一个小时,所以在g(t)中对应着B点。以此类推得到下面的图像。

2024-07-17 17:28:12 597

原创 交叉熵损失函数简单说明

3.交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异。2.交叉熵经常搭配softmax使用,将输出的结果进行处理,使其多个分类的预测值和为1,再通过交叉熵来计算损失。交叉熵是信息论中的一个重要概念,主要用于度量两个概率分布间的差异性。3.多个事件同时发生的概率是多个事件概率相乘,总信息量是多个事件信息量相加。1.交叉熵的值越小,说明两个分布越相似,预测结果越接近真实结果。1.事件发生的概率越低,信息量越大;为什么使用对数计算?

2024-07-16 19:05:06 208

原创 欧式空间、傅里叶级数与希尔伯特空间的解释

欧式空间的应用场景很好理解,因为我们生活的就是一个三维的欧式空间,我们想当然的理解的距离,长度,夹角的概念就是欧式空间中距离,范数,內积的定义。那么希尔伯特空间的应用场景呢,希尔伯特空间中的元素一般是函数,因为一个函数可以视为一个无穷维的向量。如果大家熟悉傅里叶变换或者泰勒展开,便能自然的想到这个空间的基底是什么。没错,也是一组无限多的函数。1.欧式空间与希尔伯特空间-CSDN博客。

2024-07-16 18:25:17 571

原创 机器学习中的梯度下降

梯度也可以理解为导数。在一维空间中:梯度就是导数,或者说对于一个线性函数,也就是线的斜率。梯度是个向量,自变量沿着该向量的方向变化,函数值变化最快。在机器学习中,为使损失函数下降最快,我们需要让模型参数沿着梯度的负方向更新,即梯度下降。附上图解(简略过程):第一步:计算函数的导数f(x)'第二步:任意选择一个起点,如A点。代入X得出Y',将计算得到的Y'作为新的X,图中对应B点。第三步:对B点重复第二步操作,会得到C、D、F......以此类推。

2024-07-16 16:58:36 974

原创 YOLOv5初学者问题——用自己的模型预测图片不画框

但是当我引用训练好的best.fangpt去进行预测的时候, 程序输出的图片并没有描框。如题,我在用自己的数据集训练权重模型的时候,在训练完成输出的yolov5-v5.0\runs\train\exp2目录下可以看到,在训练测试的时候是有输出描框的。在我参考了其它文章后,增加了训练epoch重新训练参数模型后,在预测就可以描框了。即从原来训练50个epoch增加到了训练300个epoch。但是我使用的yolov5模型本来就有这句话,所以这个办法没有用。

2024-07-03 18:52:47 210

原创 YOLOv4详细解释

一个目标检测网络的组成可以由一个公式来描述。

2024-06-30 15:59:08 1042

原创 YOLOV1-V3详细介绍(新手向、超详细)

本文主要是根据我自己的学习情况来进行讲解,以一个初学者的角度进行阐释,如果有更深层次的点没有涉及到,还请大家多多包涵。 目标检测算法比较流行的算法可以分为两类: 一类是基于Region Proposal(候选区域)的R-CNN系算法(R-CNN,Fast R-CNN, Faster R-CNN),它们是two-stage的。需要先使用启发式方法(selective search)或者CNN网络(RPN)产生Region Proposal,然后再在Region Proposal上做

2024-06-17 22:03:01 1073

原创 基于pytorch的LSTM模型训练与预测(附源码)

关于这个模型的基本概念可以查看这篇文章,写得很详细,我觉得能大概看明白反向传递各个部分的推导就行了。

2024-06-14 15:37:50 3196

原创 HIVE报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.Map RedTask

动态分区的最大数量由hive.exec.max.dynamic.partitions和hive.exec.max.dynamic.partitions.pernode控制。本人在使用hive进行大量数据insert表的的时候运行失败并报错:Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.Map RedTask。

2024-06-03 22:15:24 294 1

原创 sqoop操作

sqoop是隶属于Apache旗下的, 最早是属于cloudera公司的,是一个用户进行数据的导入导出的工具, 主要是将关系型的数据库(MySQL, oracle...)导入到hadoop生态圈(HDFS,HIVE,Hbase...) , 以及将hadoop生态圈数据导出到关系型数据库中。

2024-06-01 17:46:31 1035

原创 黑马程序员Linux简单入门学习笔记

命令需要root权限,可以su切换到root,或使用sudo提权,并且需要联网。普通用户无法修改所属为其它用户或组,所以此命令只适用于root用户执行。使用chown命令,可以修改文件、文件夹的所属用户和用户组。为了避免长期使用root用户,可能带来的系统损坏。作用:查看该ip地址下端口的占用情况。作用:查看指定端口的占用情况。-r,被压缩的包含文件夹的时候,需要使用-r选项。将文件1和文件2压缩成A.tar.gz。查找该关键字在文件中所在的行。>>:将A的结果追加到B中。(也可以用于给文件改名)

2024-04-17 17:40:01 827 2

原创 Hive+Hadoop数据分析模拟案例练习

对电影评分数据进行统计分析,最后以可视化的形式展示出来。

2024-04-13 18:08:15 359 1

原创 Hive数据库操作(查询的操作语法)

基本查询和其它数据库(MySQL等)类似,本文就不再介绍。这里主要说的是Hive数据中一些特别的查询。

2024-04-05 17:32:09 317 1

原创 关系数据库

一张图看明白什么是。

2024-04-01 22:21:23 1003

原创 Hive数据库操作(表的操作语法)

承接上文,文本主要讲hive操作使用。

2024-03-30 18:06:22 723 1

原创 大数据Hive(介绍+安装+使用)

对数据进行统计分析,SOL是目前最为方便的编程工具,但是MapReduce支持程序开发 (Java、Python等)但不支持SQL开发。Hive是一款分布式SQL计算的工具,其主要功能是将SQL语句翻译成MapReduce程序运行。

2024-03-27 22:29:05 972 2

原创 朴素贝叶斯分类算法 + python简单样例

贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。。其中}的含义为:对于第i个样本的第j个特征,它的特征值属于特征集j,通过训练集训练出分类模型,然后对输入的实例x进行预测分类。例:其中为第2个样本的第1个特征=1特征集={1,2,3}先验概率(prior probability)是指根据以往经验和分析得到的概率,如 全概率公式 ,它往往作为"由因求果"问题中的"因"出现的概率。计算方法其中N为样本集的数量,表示求和这N个样本中的数量。

2024-03-22 14:57:48 2445

原创 Scala编程 读取Kafka处理并写入Redis

Scala还提供了许多高级特性,如高阶函数、模式匹配、类型类等,使得编写高效、简洁、可重用的代码变得更加容易。由于其高性能、灵活性和丰富的功能,Redis被广泛应用于各种场景,如缓存加速、实时计数、排行榜、消息队列等。同时,Kafka还提供了丰富的API和生态系统,使得开发者可以方便地构建基于Kafka的实时数据处理应用。使用Scala编程,用Spark Streaming采集Kafka消费者端口接收到的信息,对信息进行处理求出每个电影ID对应的平均分数并写入到Redis数据库中。

2023-12-31 17:32:42 2003

原创 Kafka、Zookeeper分布式集群搭建

因为之前已经安装好了,这里就不再说明了,如果没有安装JDK的可以去参考一下其它大佬的文章。

2023-12-26 12:09:31 871 1

原创 kafka伪分布式搭建与命令测试

下载自己需要的版本即可,以下以3.6.1版本为例。

2023-12-25 15:01:59 977

原创 SparkSQL的API调用(影评案例)

创建一个空的结构类型,用于存储字段信息。:向结构类型中添加一个名为"user_id"的字段,字段类型为StringType(),可为空。:向结构类型中添加一个名为"movie_id"的字段,字段类型为IntegerType(),可为空。:向结构类型中添加一个名为"rank"的字段,字段类型为IntegerType(),可为空。:向结构类型中添加一个名为"marktime"的字段,字段类型为StringType(),可为空。

2023-12-22 18:10:36 85

原创 PyCharm配置Anaconda远程解释器

在添加spark环境变量后依然报错,但是这个警告通常不会影响代码的运行,因为PyCharm会使用内置的Java类来处理Hadoop相关的功能。添加后会提示缺少findspark模块,因为Linux环境下没有安装这个模块,可以使用编译器远程安装到Linux主机上。5. 选择系统解释器,解释器路径为anaconda目录下envs->创建的虚拟环境->bin->python。在配置完成后,pycharm会自动生成对应的远程服务器目录,本地机器上传的程序文件都会在部署路径里面。原因:没有打开hadoop集群。

2023-12-18 17:44:33 672 1

原创 Linux 环境安装Pyspark

1.将下载好的安装包上传到linux系统中2.解压安装包按回车多次按空格,直到看到最后时候输入yes再次输入yes输入想要安装的路径,注意:最后一个anaconda3是安装时候自动创建的文件夹,所以要保证上一个目录下没有anaconda3这个文件夹。输入yes后,继续回车然后等待安装。安装完成。

2023-12-18 14:29:39 875 1

原创 Spark Standalone模式环境搭建

1.2.3.4.确保主机master安装了jdk,hadoo,spark。另外两台可以不装,因为之后的操作会把主机的这些环境发送给另外两台。

2023-12-16 15:51:24 72 1

原创 Hadoop学习(基本介绍+安装+代码使用)

如果关闭防火墙报错Failed to stop firewalld.service: Unit firewalld.service not loaded.是因为没有安装防火墙,可以跳过关闭防火墙这一步。1.准备好三台机器,准备好hadoop安装包,主节点master已经安装JDK。启动时候报错内容,端口名字与主机名字不一样(woker1少了一个r)重新打开hdfs-site.xml修改端口名字。修改后成功解决问题,三台集群的节点都已经启动。

2023-12-15 17:41:34 815

原创 三台Linux机器之间配置SSH免密登录

给每台机器的hosts文件都写每个主机的IP映射的主机名。分别在worker1和worker2上进行操作。在worker1上生成密钥。在worker2上生成密钥。在master上进行操作。在master上生成密钥。分别在三台主机中设置。

2023-12-15 14:59:31 463

原创 Spark RDD练习

是Spark中的一个函数,用于将一个已有的集合(如列表或数组)转换为一个分布式数据集(RDD)是RDD的一个动作操作,它将RDD中的所有元素收集到驱动程序中,并以数组的形式返回结果。这段代码的意思是对RDD中的每个元素获取其长度,并将结果以数组的形式返回。对一个包含单词的集合进行映射操作,将每个单词和它的长度作为一个键值对返回。是RDD的一个转换操作,它将RDD中的每个元素应用于给定的函数。计算list1中各个元素中各个单词的长度,并输出对应单词。计算list1中各个元素中各个单词的长度。

2023-12-14 16:03:53 119 1

原创 Spark Local模式环境搭建

这个警告信息是因为Spark在启动时尝试加载本地Hadoop库,但是没有找到适合你的平台的库,所以使用了Java内置的类来代替。这个警告信息并不会影响Spark的正常运行,但是如果你需要使用Hadoop相关的功能,可能会遇到问题。SparkUI是Spark的Web界面,它默认绑定在4040端口。然而,如果该端口已经被其他进程占用,Spark就无法绑定到该端口上,因此会尝试使用下一个可用的端口(4041)。这个是Spark在启动时输出的一条警告信息,它告诉你Spark的默认日志级别被设置为"WARN"。

2023-12-13 17:51:36 137 1

原创 SSH远程登录与FinalShell连接Linux机器

在用finalshell连接虚拟机时候出现了以下问题:报错java.net.ConnectException: Connection refused: connect。1.在Linux终端编辑/etc/ssh/sshd_config文件。3.重新使用finalshell连接。

2023-12-13 14:00:52 225

原创 Linux修改主机名字

3.进入hostname文件修改主机名,修改好后输入:wq保存退出。1.设置root账户的密码(如果已经设置过则忽略此操作)2.登录root账户。

2023-12-12 17:58:50 41

原创 VMware安装deepin系统虚拟机

7.给虚拟机配置运行内存,我的机器是36G的并且考虑到后期要开启多个虚拟机,所以选择分配4G,根据实际情况按需配置即可。如果需要多台deepin系统的虚拟机,可以通过克隆刚刚已经配置好的虚拟机来完成,这样就可以减少多次重复安装浪费时间。选择储存为单个文件。3.选择安装映像文件,地址为之前下载deepin映像文件所存放的地址。1.打开VMware,点击文件->新建虚拟机->自定义->下一步。2.选择全盘安装,如果内存小于64G的时候是无法点击下一步的。3.点击继续安装,等待安装即可,安装完成后点击立即重启。

2023-12-12 17:18:43 2681

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除