LiyC;-CSDN博客

问题出在了内容解析的时候，因为每个<li>标签不能保证都是完整的按照我们的格式来的，例如有的<li>标签缺少'span', class_='pirce'、有的<li>标签缺少'h4', class_='card-name'，所以在爬取不完整标签的时候会报错AttributeError，这里我使用了异常捕获跳过了报错，同时也跳过了爬取这条不完整的数据。可以看到，我们请求响应得到的结果是一个htm文件格式的内容，这是对应网页的源码，就与我们在该网页查看详细源码的结果一样。

2024-07-31 21:43:54 1086

原创卷积与图像卷积操作

教材上的卷积公式如下图：f(t)代表进水量，表示t时刻进入的水量g(x-t)代表排水量，表示t时刻进入的水量，在x时候还剩多少（%）上面说的只是特殊情况，即使只有三个时间点有进水，而在实际情况下我们的水池是每个时刻都会有进水，所以我们需要累加x时刻之前的每一个时刻的剩余量，得到以下公式：结合两个函数我们有以下分析：以t时刻为例，表示这个时刻刚刚进水还没有开始排，所以对应着g(t)中的A点。而t-1时刻到t时刻已经过去了一个小时，所以在g(t)中对应着B点。以此类推得到下面的图像。

2024-07-17 17:28:12 1127

原创交叉熵损失函数简单说明

3.交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度，在机器学习中就表示为真实概率分布与预测概率分布之间的差异。2.交叉熵经常搭配softmax使用，将输出的结果进行处理，使其多个分类的预测值和为1，再通过交叉熵来计算损失。交叉熵是信息论中的一个重要概念，主要用于度量两个概率分布间的差异性。3.多个事件同时发生的概率是多个事件概率相乘，总信息量是多个事件信息量相加。1.交叉熵的值越小，说明两个分布越相似，预测结果越接近真实结果。1.事件发生的概率越低，信息量越大;为什么使用对数计算？

2024-07-16 19:05:06 390

原创欧式空间、傅里叶级数与希尔伯特空间的解释

欧式空间的应用场景很好理解，因为我们生活的就是一个三维的欧式空间，我们想当然的理解的距离，长度，夹角的概念就是欧式空间中距离，范数，內积的定义。那么希尔伯特空间的应用场景呢，希尔伯特空间中的元素一般是函数，因为一个函数可以视为一个无穷维的向量。如果大家熟悉傅里叶变换或者泰勒展开，便能自然的想到这个空间的基底是什么。没错，也是一组无限多的函数。1.欧式空间与希尔伯特空间-CSDN博客。

2024-07-16 18:25:17 2092

原创机器学习中的梯度下降

梯度也可以理解为导数。在一维空间中：梯度就是导数，或者说对于一个线性函数，也就是线的斜率。梯度是个向量，自变量沿着该向量的方向变化，函数值变化最快。在机器学习中，为使损失函数下降最快，我们需要让模型参数沿着梯度的负方向更新，即梯度下降。附上图解（简略过程）：第一步：计算函数的导数f(x)'第二步：任意选择一个起点，如A点。代入X得出Y'，将计算得到的Y'作为新的X，图中对应B点。第三步：对B点重复第二步操作，会得到C、D、F......以此类推。

2024-07-16 16:58:36 1269

原创 YOLOv5初学者问题——用自己的模型预测图片不画框

但是当我引用训练好的best.fangpt去进行预测的时候，程序输出的图片并没有描框。如题，我在用自己的数据集训练权重模型的时候，在训练完成输出的yolov5-v5.0\runs\train\exp2目录下可以看到，在训练测试的时候是有输出描框的。在我参考了其它文章后，增加了训练epoch重新训练参数模型后，在预测就可以描框了。即从原来训练50个epoch增加到了训练300个epoch。但是我使用的yolov5模型本来就有这句话，所以这个办法没有用。

2024-07-03 18:52:47 832 1

原创 YOLOv4详细解释

一个目标检测网络的组成可以由一个公式来描述。

2024-06-30 15:59:08 1861

原创 YOLOV1-V3详细介绍（新手向、超详细）

本文主要是根据我自己的学习情况来进行讲解，以一个初学者的角度进行阐释，如果有更深层次的点没有涉及到，还请大家多多包涵。目标检测算法比较流行的算法可以分为两类：一类是基于Region Proposal（候选区域）的R-CNN系算法（R-CNN，Fast R-CNN, Faster R-CNN），它们是two-stage的。需要先使用启发式方法（selective search）或者CNN网络（RPN）产生Region Proposal，然后再在Region Proposal上做

2024-06-17 22:03:01 2115

原创基于pytorch的LSTM模型训练与预测（附源码）

关于这个模型的基本概念可以查看这篇文章，写得很详细，我觉得能大概看明白反向传递各个部分的推导就行了。

2024-06-14 15:37:50 39629 32

原创 HIVE报错:FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.Map RedTask

动态分区的最大数量由hive.exec.max.dynamic.partitions和hive.exec.max.dynamic.partitions.pernode控制。本人在使用hive进行大量数据insert表的的时候运行失败并报错：Error while processing statement: FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.Map RedTask。

2024-06-03 22:15:24 1221 1

原创 sqoop操作

sqoop是隶属于Apache旗下的, 最早是属于cloudera公司的,是一个用户进行数据的导入导出的工具, 主要是将关系型的数据库(MySQL, oracle...)导入到hadoop生态圈(HDFS,HIVE,Hbase...) , 以及将hadoop生态圈数据导出到关系型数据库中。

2024-06-01 17:46:31 1422

原创黑马程序员Linux简单入门学习笔记

命令需要root权限，可以su切换到root,或使用sudo提权，并且需要联网。普通用户无法修改所属为其它用户或组,所以此命令只适用于root用户执行。使用chown命令，可以修改文件、文件夹的所属用户和用户组。为了避免长期使用root用户,可能带来的系统损坏。作用:查看该ip地址下端口的占用情况。作用：查看指定端口的占用情况。-r,被压缩的包含文件夹的时候,需要使用-r选项。将文件1和文件2压缩成A.tar.gz。查找该关键字在文件中所在的行。>>:将A的结果追加到B中。（也可以用于给文件改名）

2024-04-17 17:40:01 1365 2

原创 Hive+Hadoop数据分析模拟案例练习

对电影评分数据进行统计分析，最后以可视化的形式展示出来。

2024-04-13 18:08:15 679 1

原创 Hive数据库操作（查询的操作语法）

基本查询和其它数据库（MySQL等）类似，本文就不再介绍。这里主要说的是Hive数据中一些特别的查询。

2024-04-05 17:32:09 743 1

原创关系数据库

一张图看明白什么是。

2024-04-01 22:21:23 1465

原创 Hive数据库操作（表的操作语法）

承接上文，文本主要讲hive操作使用。

2024-03-30 18:06:22 1077 1

原创大数据Hive（介绍+安装+使用）

对数据进行统计分析，SOL是目前最为方便的编程工具，但是MapReduce支持程序开发 (Java、Python等)但不支持SQL开发。Hive是一款分布式SQL计算的工具，其主要功能是将SQL语句翻译成MapReduce程序运行。

2024-03-27 22:29:05 2002 2

原创朴素贝叶斯分类算法 + python简单样例

贝叶斯分类是一类分类算法的总称，这类算法均以贝叶斯定理为基础，故统称为贝叶斯分类。。其中}的含义为：对于第i个样本的第j个特征，它的特征值属于特征集j，通过训练集训练出分类模型，然后对输入的实例x进行预测分类。例：其中为第2个样本的第1个特征=1特征集={1,2,3}先验概率（prior probability）是指根据以往经验和分析得到的概率，如全概率公式，它往往作为"由因求果"问题中的"因"出现的概率。计算方法其中N为样本集的数量，表示求和这N个样本中的数量。

2024-03-22 14:57:48 3147 2

原创 Scala编程读取Kafka处理并写入Redis

Scala还提供了许多高级特性，如高阶函数、模式匹配、类型类等，使得编写高效、简洁、可重用的代码变得更加容易。由于其高性能、灵活性和丰富的功能，Redis被广泛应用于各种场景，如缓存加速、实时计数、排行榜、消息队列等。同时，Kafka还提供了丰富的API和生态系统，使得开发者可以方便地构建基于Kafka的实时数据处理应用。使用Scala编程，用Spark Streaming采集Kafka消费者端口接收到的信息，对信息进行处理求出每个电影ID对应的平均分数并写入到Redis数据库中。

2023-12-31 17:32:42 2437

原创 Kafka、Zookeeper分布式集群搭建

因为之前已经安装好了，这里就不再说明了，如果没有安装JDK的可以去参考一下其它大佬的文章。

2023-12-26 12:09:31 1302 1

原创 kafka伪分布式搭建与命令测试

下载自己需要的版本即可，以下以3.6.1版本为例。

2023-12-25 15:01:59 1266

原创 SparkSQL的API调用（影评案例）

创建一个空的结构类型，用于存储字段信息。：向结构类型中添加一个名为"user_id"的字段，字段类型为StringType()，可为空。：向结构类型中添加一个名为"movie_id"的字段，字段类型为IntegerType()，可为空。：向结构类型中添加一个名为"rank"的字段，字段类型为IntegerType()，可为空。：向结构类型中添加一个名为"marktime"的字段，字段类型为StringType()，可为空。

2023-12-22 18:10:36 286

原创 PyCharm配置Anaconda远程解释器

在添加spark环境变量后依然报错，但是这个警告通常不会影响代码的运行，因为PyCharm会使用内置的Java类来处理Hadoop相关的功能。添加后会提示缺少findspark模块，因为Linux环境下没有安装这个模块，可以使用编译器远程安装到Linux主机上。5. 选择系统解释器，解释器路径为anaconda目录下envs->创建的虚拟环境->bin->python。在配置完成后，pycharm会自动生成对应的远程服务器目录，本地机器上传的程序文件都会在部署路径里面。原因：没有打开hadoop集群。

2023-12-18 17:44:33 1620 1

原创 Linux 环境安装Pyspark

1.将下载好的安装包上传到linux系统中2.解压安装包按回车多次按空格，直到看到最后时候输入yes再次输入yes输入想要安装的路径，注意：最后一个anaconda3是安装时候自动创建的文件夹，所以要保证上一个目录下没有anaconda3这个文件夹。输入yes后，继续回车然后等待安装。安装完成。

2023-12-18 14:29:39 2067 1

原创 Spark Standalone模式环境搭建

1.2.3.4.确保主机master安装了jdk，hadoo，spark。另外两台可以不装，因为之后的操作会把主机的这些环境发送给另外两台。

2023-12-16 15:51:24 1066 1

原创 Hadoop学习（基本介绍+安装+代码使用）

如果关闭防火墙报错Failed to stop firewalld.service: Unit firewalld.service not loaded.是因为没有安装防火墙，可以跳过关闭防火墙这一步。1.准备好三台机器，准备好hadoop安装包，主节点master已经安装JDK。启动时候报错内容，端口名字与主机名字不一样（woker1少了一个r）重新打开hdfs-site.xml修改端口名字。修改后成功解决问题，三台集群的节点都已经启动。

2023-12-15 17:41:34 2327 1

原创三台Linux机器之间配置SSH免密登录

给每台机器的hosts文件都写每个主机的IP映射的主机名。分别在worker1和worker2上进行操作。在worker1上生成密钥。在worker2上生成密钥。在master上进行操作。在master上生成密钥。分别在三台主机中设置。

2023-12-15 14:59:31 1424

原创 Spark RDD练习

是Spark中的一个函数，用于将一个已有的集合（如列表或数组）转换为一个分布式数据集（RDD）是RDD的一个动作操作，它将RDD中的所有元素收集到驱动程序中，并以数组的形式返回结果。这段代码的意思是对RDD中的每个元素获取其长度，并将结果以数组的形式返回。对一个包含单词的集合进行映射操作，将每个单词和它的长度作为一个键值对返回。是RDD的一个转换操作，它将RDD中的每个元素应用于给定的函数。计算list1中各个元素中各个单词的长度，并输出对应单词。计算list1中各个元素中各个单词的长度。

2023-12-14 16:03:53 319 1

原创 Spark Local模式环境搭建

这个警告信息是因为Spark在启动时尝试加载本地Hadoop库，但是没有找到适合你的平台的库，所以使用了Java内置的类来代替。这个警告信息并不会影响Spark的正常运行，但是如果你需要使用Hadoop相关的功能，可能会遇到问题。SparkUI是Spark的Web界面，它默认绑定在4040端口。然而，如果该端口已经被其他进程占用，Spark就无法绑定到该端口上，因此会尝试使用下一个可用的端口（4041）。这个是Spark在启动时输出的一条警告信息，它告诉你Spark的默认日志级别被设置为"WARN"。

2023-12-13 17:51:36 528 1

原创 SSH远程登录与FinalShell连接Linux机器

在用finalshell连接虚拟机时候出现了以下问题：报错java.net.ConnectException: Connection refused: connect。1.在Linux终端编辑/etc/ssh/sshd_config文件。3.重新使用finalshell连接。

2023-12-13 14:00:52 639 1

原创 Linux修改主机名字

3.进入hostname文件修改主机名，修改好后输入:wq保存退出。1.设置root账户的密码（如果已经设置过则忽略此操作）2.登录root账户。

2023-12-12 17:58:50 174

空空如也

空空如也