自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(78)
  • 收藏
  • 关注

原创 python爬虫爬取某图书网页实例

下面是通过requests库来对ajax页面进行爬取的案例,与正常页面不同,这里我们获取url的方式也会不同,这里我们通过爬取一个简单的ajax小说页面来为大家讲解。循环遍历URL(这里为大家提供具体url的获取方法,并循环了1至9页的数据为大家做案例),并发送了带有随机User-Agent的GET请求。设置代码来保存图片到以文章名命名的文件中,并将作者、文章名和简介信息写入到"./biquge.txt"文件中。首先进入网页,点击F12打开自定义与控制工具,点击fecth/XHR,此时显示部分为空白。

2024-08-14 16:22:31 5446

原创 python—爬虫爬取电影页面实例

下面是一个简单的爬虫实例,使用Python的requests库来发送HTTP请求,并使用lxml库来解析HTML页面内容。这个爬虫的目标是抓取一个电影网站,并提取每部电影的主义部分。首先,确保你已经安装了requests和lxml库。安装好lxml库后,就可以在Python代码中通过from lxml import etree来导入etree模块,并使用它提供的各种功能。这段代码是一个Python脚本,用于从豆瓣电影Top 250页面抓取电影信息,并将这些信息保存到本地文件中。

2024-08-14 15:28:39 5066 9

原创 神经网络-损失函数

在神经网络的训练过程中,损失函数的选择取决于具体的任务和数据特点。例如,在回归任务中,MSE和MAE是常用的损失函数;而在分类任务中,交叉熵损失函数则更为常见。此外,还可以根据实际需求对损失函数进行组合或改进,以达到更好的训练效果。

2024-09-14 18:06:50 598

原创 深度学习-神经网络

本文主要介绍了神经网络部分组成,例如基本单元、网络层、偏置、权重与激活函数等组成部分。其中简述了网络层的三部分,即输入层、输出层与隐藏层,然后讲到了神经网络中的可训练参数,即偏置与权重,它们共同决定了网络的行为和性能。其次我们介绍了神经网络常用的几种激活函数,通过图像与公式为大家展示了几种激活函数的异同。最后我们为大家讲述了神经网络的优缺点,以便让大家合理的运用神经网络。

2024-09-13 20:45:14 1034 1

原创 深度学习介绍

定义:深度学习是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。它是机器学习的一个分支,通过学习样本数据的内在规律和表示层次,使机器能够像人一样具有分析学习能力,识别文字、图像和声音等数据。核心:深度学习的核心在于构建多层非线性处理单元(即神经元)的网络结构,这些网络可以从原始数据中自动提取特征并进行学习。

2024-09-12 19:56:19 1048

原创 OpenCV-模板匹配多个目标

本次主要讲述了模型匹配多个目标的方法过程,通过对模型匹配进行进一步讲解,然后对其方法进行介绍与举例,为大家展示了匹配多个目标的案例,通过对模板图像进行旋转等一系列操作,让其与输入图像中的各个区域相匹配,最终将匹配结果进行绘制矩阵框展示,为大家展示了具体效果。

2024-09-11 20:05:27 1192

原创 OpenCV-模板匹配

在OpenCV中,模型匹配(或称为模板匹配)是一种用于在图像中查找与给定模板最相似区域的技术。OpenCV提供了cv2.matchTemplate()函数来实现模板匹配。这个函数通过滑动模板图像在输入图像上来比较模板和每个可能的窗口区域,并计算它们之间的相似度。模板匹配是一种最原始、最基本的模式识别方法,其核心在于通过已知的小图像(模板)在另一幅大图像中搜寻相同或相似的目标物,并确定其位置。这一过程主要依赖于计算模板图像与待搜索图像中各个区域的相似度。

2024-09-10 19:55:49 1533

原创 OpenCV-轮廓特征

在OpenCV中,轮廓检测后得到的轮廓不仅是一系列点的集合,还可以进一步分析以提取有用的特征。这些特征包括但不限于轮廓的面积、周长、边界框、凸包、质心、方向、矩等。OpenCV中的轮廓特征提取和分析在计算机视觉领域具有许多重要的好处和应用。这些特征不仅可以帮助我们理解和分析图像内容,还能在图像识别、物体检测、形状分析、运动跟踪等多种场景中发挥关键作用。物体识别和定位:通过检测图像中的轮廓,可以识别和定位图像中的物体。轮廓是物体边界的精确表示,有助于区分不同的物体并确定它们的位置。

2024-09-09 22:00:50 1125 1

原创 OpenCV-轮廓检测

在OpenCV中,轮廓检测是图像处理中一个非常重要的环节,它允许我们识别图像中的形状。这个过程通常涉及几个步骤:读取图像、转换为灰度图、应用阈值处理(或边缘检测)以获取二值图像、然后使用cv2.findContours()函数查找轮廓。在读取图像文件名,我们可以根据具体需求调整阈值处理和其他参数。此外,cv2.RETR_TREE是一个轮廓检索模式,它检索所有轮廓并创建完整的层次结构。根据我们的需求,可以选择其他检索模式,如cv2.RETR_EXTERNAL只检索最外层的轮廓。

2024-09-09 21:34:06 1894 4

原创 数据填充-随机森林填充

随机森林(Random Forest)是一种集成学习方法,它通过构建多个决策树并将它们的预测结果进行汇总来做出最终的预测。结合了决策树的预测能力和集成学习的优势,以提高预测的准确性和鲁棒性。随机森林是一种强大且灵活的机器学习算法,具有许多优点,但也存在一些潜在的缺点。高准确性:通过构建多个决策树并集成它们的预测结果,随机森林通常能够提供比单一决策树更高的预测准确性。鲁棒性:随机森林对噪声和异常值具有较好的容忍度,不容易受到过拟合的影响。

2024-09-08 21:12:17 1249

原创 机器学习-基本方式

有监督学习是指使用带有标签(或目标值)的数据集来训练模型,让模型学习输入特征与输出标签之间的映射关系。在学习过程中,模型会不断调整其参数,以最小化预测标签与实际标签之间的差异。无监督学习是指使用没有标签的数据集进行训练,模型需要自行发现数据中的内在结构、模式或规律。无监督学习的目标通常不是预测或分类,而是数据的降维、聚类或关联规则的发现。

2024-09-06 21:32:28 1000

原创 SVD降维

综上所述,SVD降维是一种有效的数据预处理技术,它可以通过提取数据的主要特征来降低数据的维度,并保留大部分重要信息。在降维过程中,SVD通过保留矩阵A中最大的几个奇异值,并忽略其他较小的奇异值,来近似地重构原始矩阵。重构矩阵:使用选定的奇异值和对应的U、V^T的子矩阵,重构出一个近似于原始矩阵A但维度更低的矩阵A’。去除噪声:较小的奇异值通常与噪声相关,因此通过忽略这些奇异值,可以在一定程度上去除数据中的噪声。提高算法性能:降维后的数据具有更低的维度,可以减少计算量和存储需求,从而提高算法的性能。

2024-09-06 20:21:56 1202

原创 主成分分析-PCA

PCA(主成分分析,Principal Component Analysis)是一种常用的数据降维技术。它的主要目的是通过线性变换将原始数据转换到新的坐标系统中,这个新坐标系统的各个坐标轴(即主成分)是原始数据的主要特征方向,这些方向上的数据方差最大,且各坐标轴之间相互正交。通过这种方式,PCA可以在保留数据重要特征的同时,减少数据的维度,简化数据,便于后续的数据处理和分析。

2024-09-05 20:52:28 1131

原创 边缘检测运用

边缘检测是图像处理和计算机视觉中的一个基本问题,旨在标识数字图像中亮度变化明显的点,即检测图像中的边缘或不连续区域。这些边缘通常反映了图像中不同区域之间的边界或过渡区域,包含了物体的轮廓和结构信息。

2024-09-04 20:27:29 1894

原创 深度学习-OpenCv的运用(4)

图像形态学是数学中研究形状、结构和变换的一个分支,在图像处理领域,它主要用于描述和分析图像中的形状和结构。图像形态学通过操作图像中的形状和结构元素(也称为内核或模板),来实现图像的分析、增强、去噪和特征提取等目的。这一领域为计算机视觉、图像识别和医学图像处理等领域提供了强大的工具和方法。代码解释:设置了结构元素的大小为 5x5,并指定了腐蚀操作的迭代次数为 2。这意味着腐蚀操作将连续进行两次,每次都会使用5x5 的结构元素来减少图像中的亮区域。显示结果:使用 cv2.imshow 来显示原始图像和腐蚀

2024-09-03 21:37:34 1546

原创 深度学习-OpenCV运用(3)

深度学习(Deep Learning)与OpenCV(Open Source Computer Vision Library)的结合为计算机视觉领域带来了强大的解决方案。OpenCV是一个开源的计算机视觉和机器学习软件库,它提供了大量的视觉处理算法,包括但不限于图像和视频处理、特征检测、对象识别等。OpenCV作为一个开源的计算机视觉库,具有显著的优点和一定的缺点。优点开源与免费:OpenCV是开源的,允许用户自由使用、修改和分发,且对非商业应用和商业应用都是免费的。

2024-09-02 20:13:49 2062

原创 自然语言处理-词向量转换

词向量转换是自然语言处理(NLP)中的一个核心技术,它将词汇表中的每个词映射为一个固定长度的向量。这种向量表示能够捕捉到词的语义和语法信息,为许多NLP任务提供支持。文本分类:通过词向量表示文本,然后使用分类算法对文本进行分类。情感分析:利用词向量捕捉文本中的情感信息,对文本进行情感倾向的判断。机器翻译:在机器翻译中,词向量可以帮助模型理解源语言和目标语言之间的词汇对应关系。信息检索:通过计算查询词和文档词向量之间的相似度,实现相关文档的检索。

2024-09-01 21:51:11 1924

原创 文本数据分析-(TF-IDF)(2)

TF-IDF是一种统计方法,用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。它通过结合词频(TF)和逆文档频率(IDF)两个因素来计算词语的权重。词频(TF)表示某个词在文档中出现的频率,逆文档频率(IDF)则度量了该词在整个文本集合中的重要性。TF-IDF值越高,表示该词在文档中的重要性越大,越能代表文档的主题。jieba库是一个流行的中文分词库,它支持三种分词模式:精确模式、全模式和搜索引擎模式。除了分词功能外,jieba库还提供了词性标注、关键词提取、添加自定义词典等丰富的功能。

2024-08-31 17:04:20 1526

原创 文本数据分析-(TF-IDF)(1)

TF-IDF(Term Frequency-Inverse Document Frequency)是一种在文本挖掘中广泛使用的特征向量化方法,用于评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF的主要思想是:如果某个词语或短语在一篇文章中出现的频率(TF,Term Frequency)高,并且在其他文章中很少出现(即IDF,Inverse Document Frequency,逆文档频率高),则认为这个词或者短语具有很好的类别区分能力,适合用来分类。

2024-08-30 22:33:19 2029

原创 聚类算法-DBSCAN

DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种基于密度的空间聚类算法,它能够将具有足够高密度的区域划分为簇,并能在具有噪声的数据集中发现任意形状的簇。DBSCAN 算法相比传统的 K-means 算法,不依赖于簇的形状,且能够识别并处理噪声点。DBSCAN 的优点和缺点优点:不需要预先指定簇的数量。能够发现任意形状的簇。对噪声数据不敏感。能够识别出噪声点。

2024-08-29 20:21:32 1252

原创 聚类算法-Kmeans聚类

K-means 聚类广泛应用于市场细分、图像分割、文档聚类等领域。例如,在市场营销中,可以将客户划分为不同的群体,以便进行更针对性的推广策略;在图像处理中,可以将图像分割成多个区域,以便进一步分析或压缩。但同时也拥有自己的优缺点。优点:简单易实现。对大数据集具有较好的可扩展性。当簇的密度大致相同且簇间分离良好时,效果非常好。缺点:需要预先指定 K 值,而 K 的选择通常不直观。结果可能受到初始质心选择的影响,可能导致局部最优解。对异常值(噪声)和簇的形状(非球形)敏感。

2024-08-28 16:05:19 1537

原创 机器学习-SVM方法

SVM(Support Vector Machine,支持向量机)是一种监督学习的方,用于分类和回归分析。在分类问题中,SVM 的目标是找到一个超平面(在二维空间中是一条线,在三维空间中是一个平面,以此类推),这个超平面能够将不同类别的样本分开,并且使得不同类别之间的间隔最大化。这种间隔最大化的特性使得 SVM 成为一种强大的分类器,尤其适用于高维空间中的分类问题。SVM 在许多领域都有广泛的应用,包括文本分类、图像识别、生物信息学、金融数据分析等。

2024-08-27 21:44:04 1276

原创 机器学习-朴素贝叶斯

朴素贝叶斯分类器因其简单性和高效性,在文本分类、垃圾邮件检测、情感分析等领域有着广泛的应用。但同时也有着自己的优缺点。优点简单高效:由于假设特征之间相互独立,大大简化了计算。处理缺失数据:对缺失数据不敏感,可以通过忽略该特征或使用该特征的先验概率来处理。易于实现:算法实现相对简单,易于理解和应用。缺点特征独立性假设:现实中特征之间往往存在相关性,这一假设限制了朴素贝叶斯的性能。

2024-08-26 21:59:25 1295

原创 深度学习-OpenCV运用(2)

OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习软件库,它主要用于实时的图像处理和计算机视觉任务。虽然OpenCV本身更多地聚焦于图像处理和视觉任务,但它也提供了与机器学习相关的功能,使得开发者能够利用它来执行一些基本的机器学习任务。OpenCV是一个功能强大的计算机视觉库,可以轻松对图片进行处理。深度学习和OpenCV的结合可以充分利用两者的优势,提高图像处理的效率和效果。

2024-08-25 20:40:12 1261

原创 深度学习-OpenCV运用(1)

OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器学习软件库,它主要用于实时的图像处理和计算机视觉任务。虽然OpenCV本身更多地聚焦于图像处理和视觉任务,但它也提供了与机器学习相关的功能,使得开发者能够利用它来执行一些基本的机器学习任务。

2024-08-24 20:12:43 1630

原创 机器学习-随机森林(全网最详解)

随机森林(Random Forest)是一种集成学习方法,它通过构建多个决策树并将它们的预测结果进行汇总来提高预测的准确性。随机森林由Leo Breiman在2001年提出,它结合了“bagging”和“随机特征选择”的思想,以构建出具有强大预测能力的模型。在评估使用随机森林模型的性能时,需要综合考虑多种评估方法和指标,以全面、客观地评估模型的性能。同时,还需要注意数据集的代表性和多样性,以避免过拟合或欠拟合等问题的发生。

2024-08-23 20:42:14 1165

原创 CART决策树-基尼指数(全网最详解)

基尼指数(Gini Index)表示从数据集中随机抽取两个样本,它们类别标记不一致的概率。Gini系数D∑k1Kpk1−pk1−∑k1Kpk2Gini系数(D)= \sum_{k=1}^{K} p_k(1-p_k)=1-\sum_{k=1}^{K} p^{2}_kGini系数Dk1∑K​pk​1−pk​1−k1∑K​pk2​Gini指数DA∣D1∣∣D∣Gini系数。

2024-08-22 22:14:51 1320

原创 机器学习-过采样(全网最详解)

过采样是逻辑回归中处理不平衡数据集的一种有效方法。通过增加少数类样本的数量,可以平衡数据集,提高模型对少数类的识别能力。然而,在选择过采样方法时,需要考虑其潜在的缺点,并结合实际情况选择最适合的方法。

2024-08-21 20:54:16 1464

原创 机器学习-下采样(全网最详解)

逻辑回归是一种预测分类结果的线性模型。它使用逻辑函数(通常是Sigmoid函数)来将线性模型的输出转换为概率。逻辑回归的目标是最小化预测概率和实际标签之间的误差,这通常通过梯度下降等优化算法实现。减少计算量:下采样通过减少数据的尺寸,使得后续处理层需要处理的参数数量减少,从而加速了训练和推理过程。这对于处理大规模数据集或实时应用尤为重要。提高鲁棒性:通过聚合相邻像素的信息,下采样可以使网络对图像中的小变化(如平移、旋转等)更加鲁棒。这种特性有助于提升模型在复杂场景下的泛化能力。

2024-08-20 20:55:16 1239

原创 机器学习-混淆矩阵

随着机器学习和人工智能的迅速发展,分类模型成为了解决各种问题的重要工具。然而,仅仅知道模型预测对了多少样本是不够的。我们需要一种更详细、更系统的方法来理解模型的分类能力,以及它在不同类别上的表现。混淆矩阵是机器学习中一种评估分类模型性能的工具,特别是在监督学习中。它主要用于描述分类模型的预测结果与实际样本类别之间的关系。混淆矩阵通过矩阵的形式,展示了每个类别中预测正确的样本数和预测错误的样本数。

2024-08-19 20:05:05 1174

原创 sklearn-线性回归

sklearn(Scikit-learn)是Python中用于机器学习的一个非常流行的库,它提供了大量的算法和工具来构建和评估模型。线性回归是统计学中用于预测一个或多个自变量(特征)和一个因变量(目标)之间线性关系的方法。回归是一种应用广泛的预测建模技术,这种技术的核心在于预测的结果是连续型变量。在sklearn中,线性回归可以通过LinearRegression类来实现。线性回归模型易于理解和解释,模型的参数(系数和截距)直接反映了自变量对因变量的影响。但是预测能力有限,比如数据比较复杂的时候。

2024-08-18 20:51:39 1315

原创 Matplotlib-绘图基础

你可以调整大多数的默认配置:图片大小和分辨率(dpi)、线宽、颜色、风格、坐标轴、坐标轴以及网格的属性、文字与字体属性等。第一部分主要作用是构建出一张空白的画布,并可以选择是否将整个画布划分为多个部分,方便在同一幅图上绘制多个图形的情况。散点图(scatter diagram)又称为散点分布图,是以一个特征为横坐标,另一个特征为纵坐标,利用坐标点(散点)的分布形态反映特征间的统计关系的一种图形。linestyle: 设置线型,常见取值有实线(‘-’)、虚线(‘–’)、点虚线(‘-.’)、点线(‘:’)

2024-08-17 20:08:40 1338

原创 KNN算法-opencv的运用

OpenCV(Open Source Computer Vision Library,开源计算机视觉库)是一个跨平台的计算机视觉库,它主要关注实时的图像处理和计算机视觉任务。OpenCV由Intel在1999年发起,并由Willow Garage和其他贡献者继续维护。现在,OpenCV已经发展成为一个功能强大、易于使用的库,广泛应用于图像处理、视频分析、机器学习、物体检测、人脸识别、运动跟踪等领域。

2024-08-16 20:55:57 1202

原创 KNN算法的运用案例

KNN(K-Nearest Neighbors,K最近邻)算法是一种基本的分类与回归方法。尽管它理论上可以应用于回归问题,但在实践中更常用于分类任务。KNN算法的核心思想是:给定一个测试样本,基于某种距离度量找出训练集中与其最靠近的K个样本,然后基于这K个“邻居”的信息来进行预测。对于分类任务,通常选择这K个样本中出现最多的类别作为预测结果;对于回归任务,则可以将这K个样本的实值输出做平均来作为预测值。

2024-08-15 21:36:27 1196

原创 MySQL基础详解(4)

如果一个包含多个步骤的业务操作,被事务管理,那么这些操作要么同时成功,要么同时失败。操作:1.开启事务:start transaction;2.回滚:rollback;3.提交:commit;--建表--插入数据-- 张三给李四转账500元-- 0.开启事务-- 1.张三账户 -500-- 2.李四账户 + 500-- 出错了/没出错...-- 发现没有问题了,提交事务COMMIT;-- 发现出问题了,回滚事务ROLLBACK;

2024-08-12 21:08:06 1092

原创 MySQL基础详解(3)

MySQL索引是数据库表中的一个或多个列的值进行排序的一种结构,它的作用是帮助MySQL快速高效地查询数据。索引可以极大地提高数据库的查询速度,但同时也会占用额外的磁盘空间,并且在插入、删除和更新数据时可能会降低性能,因为索引也需要被更新。它与前面的普通索引类似,不同的就是:索引列的值必须唯一,但允许有空值。主键作用于列上(可以一个列或多个列联合主键),添加主键索引时,你需要确保该主键默认不为空(NOT NULL)。该语句添加一个主键,这意味着索引值必须是唯一的,且不能为NULL,

2024-08-11 21:57:55 772

原创 MySQL基础详解(2)

MySQL中的多表查询是数据库操作中非常常见且重要的一个环节,多表查询是数据库查询中非常强大的功能,能够让你根据需要从多个表中提取和组合数据,它允许你根据需要在多个表之间联合数据,掌握这些基本的连接类型对于进行复杂的数据库操作至关重要。A与B作笛卡尔积—> a,1 a,2 a,3 b,1 b,2 b,3 c,1 c,2 c,3。有两个集合A,B 取这两个集合的所有组成情况。隐式内连接:使用where条件消除无用数据。查询中嵌套查询,称嵌套查询为子查询。子查询的结果是多行多列的。

2024-08-10 19:24:04 1083

原创 MySQL基础详解(1)

SQL(Structured Query Language)是结构化查询语言的缩写,它是一种特殊目的的编程语言,主要用于存取数据以及查询、更新和管理关系数据库系统。SQL是关系数据库管理系统的标准语言,广泛应用于各种数据库系统中,如Microsoft SQL Server、MySQL、PostgreSQL、MariaDB和Oracle等。

2024-08-09 22:23:01 1089

原创 Navicat Premium使用

Navicat Premium 16是一款功能强大的数据库管理工具,它允许用户从单一应用程序中同时连接多种数据库,提供了极其便捷和高效的管理和开发环境,对于 MySQL 用户来说,是一个不可或缺的数据库管理工具。它不仅简化了数据库管理的复杂性,提高了开发效率,还通过其丰富的功能和强大的性能,为用户提供了全面、高效的数据库解决方案。

2024-08-08 22:10:45 805

原创 MySQL的安装

MySQL是一种开源的关系型数据库管理系统(RDBMS),由瑞典MySQL AB公司开发,后来被Sun Microsystems收购,并最终归属于Oracle公司。MySQL的安装过程可以根据不同的操作系统和安装方法有所差异,但大致可以分为以下几个步骤。以下以在electerm软件中进行的在线与离线安装。注意:如果安装的过程出现了错误,需要卸载mysql的方法。注意:如果安装的过程出现了错误,需要卸载mysql的方法。先安装其依赖包在安装server服务。如果安装server出错。9.关闭密码复杂验证。

2024-08-07 19:28:35 821

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除