花未眠..-CSDN博客

原创【NLP】基于大语言模型的论文分析

利用大语言模型（LLMs）可以帮助我们筛选行业论文，分析行业热点，总结论文内容，从而帮助科研人员更好地把握论文核心思想。试完成以下任务：子任务 1：通过网络爬取的方式收集CVPR 2024 论文（不少于 500 篇），并通过pdf解析的方式提取出论文abstract，找到其中所有能应用在智能驾驶领域相关论文，进行子领域分类，并统计每个子领域的论文数量。（子领域分类通过调用大语言模型完成，具体子领域名称不做限制，分类依据言之有理即可，子领域数量限制在 6 个以内。调用的大语言模型不限，推荐使用。

2024-07-26 18:41:47 579

原创【数据挖掘】学习笔记

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。数据源包括数据库、数据仓库、Web、其他信息存储或动态地流入系统的数据。数据挖掘的步骤1 数据清洗（去除噪声和不一致的数据）2 数据聚合（多种数据源的融合）3 数据选择（和分析任务相关的数据从数据库中检索出来）4 数据转换（数据被使用摘要和聚合的方式转换和联合成合适用于挖掘的形式)5 数据挖掘（最重要的步骤，智能的抽取数据模式的方法）6 模式评估7 知识表达属性（attribute）

2024-06-05 17:41:30 1094

原创【数字图像处理】学习笔记

图像分为两大类：模拟图像与数字图像模拟图像：通过某种物理（光、电）的强弱变化来记录图像上各个点的亮度信息连续：从空间上和数值上是不间断的举例：胶卷照片、纸质照片、肉眼看见的图像数字图像：模拟图像经过采样和量化后得到的图像数字化意味着数字图像只是真实图像的近似，在数字化过程有信息损失（是为了方便计算机处理才做的采样和量化）举例：数码相机储存的图像像素值通常表示灰度、颜色、不透明度等数字图像处理是数字信号处理理论的二维扩展改进图像质量，方便人们理解图像（从人的角度）

2024-05-28 04:07:38 1136

原创 JupyterLab中打包文件夹

在jupyterLab中数据集文件夹通常不能直接打包压缩，造成下载不便，因此需要一些工具函数进行辅助。

2024-05-16 20:41:56 243

原创 QT控件学习

由于网格布局管理器中的组件也是会随着窗口拉伸而发生变化的，所以也是需要设置组件之间的比例系数的，与QBoxLayout 不同的是网格布局管理器还需要分别设置行和列的比例系数。信号（Signal）就是在特定情况下被发射的事件，例如 PushButton 最常见的信号就是鼠标单击时发射的clicked() 信号，一个 ComboBox 最常见的信号是选择的列表项变化时发射的 CurrentIndexChanged() 信号。使用方法：创建一个 QLabel 对象，并设置标签的文本、图像等属性。

2023-12-30 16:37:59 882 1

原创【遗传算法求解函数优化问题】matlab实现

用 Matlab 编写遗传算法求解。交叉算子代码如下：（均匀交叉）变异算子代码如下：（随机变异）

2023-12-28 16:32:33 777 1

原创【蚁群算法求解TSP问题】matlab实现

TSP的目标是找到一条路径，使得旅行商走过的总距离或总成本最小。步骤5：清空禁忌列表Jk，重复步骤2和步骤4直到每一只蚂蚁完成Nmax次迭代，或者出现停滞现象（所有蚂蚁都选择相同路径，路径不再变化），最后输出最优路径。步骤4：所有蚂蚁都构建完一条完整的路径后，在所经过的路径上更新信息素，并记录本次迭代过程中的最优路径和最优路径长度。步骤2：将m只蚂蚁随机放在各个城市上，每个城市至多分布一个蚂蚁，并将m个蚂蚁所在城市存入禁忌列表Jk。步骤3：所有蚂蚁依据概率选择下一城市，并将选择城市存入禁忌列表。

2023-12-28 15:38:21 891 1

原创【遗传算法求解TSP问题】matlab实现

旅行商问题（Traveling Salesman Problem，TSP）是一个著名的组合优化问题，其目标是找到一条最短路径，使得旅行商可以经过所有给定城市一次并回到起始城市。在这个问题中，假设有一位旅行商要访问多个城市，并且每两个城市之间都有确定的距离或成本。TSP的目标是找到一条路径，使得旅行商走过的总距离或总成本最小。初始路径和最优路径对比图。

2023-12-28 15:12:49 647 1

原创【计算智能】笔记

分解定理设A为论域X上的模糊集合,Aλ是A的截集,则有这个定理说明了：大量的、甚至无限多的清晰事物重叠加在一起，总体上就形成了模糊事物。关系：描写事物之间联系的数学模型。如：x 对 y 有余弦关系（ y=cos x ）a 对 b 有大小关系（ a>b ）集合的笛卡尔积：给定集合X和Y,由全体序偶(x,y)(x∈X,y∈Y)组成的集合,叫做X与Y的笛卡儿积(或称直积),记做：模糊关系：是指笛卡儿积上的模糊集合,表示多个集合的元素间所具有的某种关系的程度。

2023-12-26 05:15:20 448 1

原创【数据库系统概论】笔记（前五章）

数据（Data）：是数据库中存储的基本对象。数据的含义称为数据的语义，数据与其语义是不可分的。数据库（Database）：是长期储存在计算机内、有组织的、可共享的大量数据的集合。数据库管理系统（DBMS）:位于用户与操作系统之间的一层数据管理软件,是基础软件，是一个大型复杂的软件系统主要功能：数据定义功能数据组织、存储和管理数据操纵功能数据库的事务管理和运行管理数据库的建立和维护功能数据库系统（DBS）:数据库系统的构成数据库数据库管理系统（及其应用开发工具）应用程序。

2023-12-13 12:02:57 64

原创【机器学习小实验2】逻辑回归实例-乳腺癌肿瘤预测

在这个乳腺癌肿瘤预测问题上，使用默认参数的 LogisticRegression 在测试集上表现较好。通过 LogisticRegressionCV 进行正则化参数选择，虽然准确率略低，但也能得到可接受的性能。通过调整正则化参数 C，发现在此问题上 C=1 的性能最好。实验结果表明，逻辑回归在这个二分类问题上表现良好，具有较高的准确率。十折交叉验证的结果强化了模型的鲁棒性和泛化能力。可能的改进方向有以下两个：一是进一步尝试不同的特征工程方法，或者考虑特征选择，以优化模型的输入。

2023-11-28 16:13:26 2116 5

原创【机器学习】习题集合

正确答案: A,B,C,D(少选不得分)正确答案: A,B,C,D(少选不得分)正确答案: A,B,C(少选不得分)正确答案: A,C,D(少选不得分)正确答案: A,B,C(少选不得分)正确答案: B,C,D(少选不得分)正确答案: B,C,D(少选不得分)正确答案: A,B,C(少选不得分)正确答案: A,B,D(少选不得分。正确答案: A,C,D(少选不得分。正确答案: A,C(少选不得分)正确答案: B,C(少选不得分)正确答案: B,C(少选不得分)正确答案: B,C(少选不得分)

2023-11-25 13:27:44 6509

原创【机器学习小实验5】基于决策树和随机森林的鸢尾花种类预测

通过这些实验，可以更深入地理解决策树算法的原理，包括信息熵、基尼指数等划分标准。掌握决策树剪枝参数的调整方式，以及不同参数对模型性能的影响。了解集成算法如随机森林的基本原理和参数配置方式，同时学会调整参数以提高模型性能，并掌握一些常用的模型评估和可视化方法。提高模型准确率的可能方法：1.网格搜索（Grid Search）方法：通过系统地遍历参数组合，找到最佳参数以提高模型性能。2.数据预处理：标准化、归一化等数据预处理方法可能对模型性能产生影响。

2023-11-25 10:15:34 1455

原创【机器学习小实验4】支持向量机回归的波士顿房价预测

实验结果显示不同核函数对支持向量机的性能产生了显著影响。在这个特定的房价预测问题上，线性核函数表现最好，这可能是因为数据集的线性关系较为明显。因此，在使用支持向量机时，选择合适的核函数非常关键。MSE、MAE 和 R-squared 是评估回归模型性能的重要指标。MSE 和 MAE 衡量了预测误差的大小，而 R-squared 则描述了模型对目标变量的解释能力。综合考虑这些指标有助于更好地评估模型的表现。实验中未对数据进行标准化处理。

2023-11-25 10:07:55 1191

原创【机器学习小实验3】基于支持向量机的Digits手写数字识别

建模流程实验中使用支持向量机（SVM）构建了手写数字识别模型，通过加载数据集、划分训练集和测试集、调参等步骤完成建模过程。模型参数理解了解了SVM中常用的参数，如核函数类型（rbf、linear、poly、sigmoid）、正则化参数C和多项式核函数的阶数degree等参数对模型性能的影响。新掌握的函数。

2023-11-25 09:58:55 1069

原创【机器学习小实验1】线性回归实现波士顿房价预测

通过这个实验，我们实现了线性回归模型并使用不同的线性回归函数进行了建模。我们学会了如何使用sklearn库来加载数据、建立模型和评估模型性能。这个实验帮助我们更好地理解了线性回归的基本原理以及不同线性回归方法的区别。我们还进行了参数调优实验，通过修改Ridge、Lasso和ElasticNet中的正则化强度参数alpha以及修改ElasticNet中的l1_ratio参数来比较不同参数对模型性能的影响。这有助于我们找到最佳的参数组合以提高模型的性能。

2023-11-25 02:58:40 1422 1

原创【计算机网络】笔记

计算机网络：由若干个节点和链接这些节点的链路组成。互联网：多个网络通过路由器相互连接形成，亦称“网络的网络”主机：与网络相连的计算机称为主机（网络把计算机连接一起，互连网则把许多网络通过一些路由器连接一起）internet：通用名称，泛指多个网络互连成的互连网，通信协议任意选Internet：专有名词，指全球最大最开放的特定互连网，采用TCP/IP协议族，前身为美国ARPANET连通性资源共享。

2023-11-23 14:52:47 478

原创【PCA】主成分分析算法R语言实现

主成分分析（Principal Component Analysis，PCA）是一种降维算法，它能将多个指标转换为少数几个主成分，这些主成分是原始变量的线性组合，且彼此之间互不相关，其能反映出原始数据的大部分信息。一般来说，当研究的问题涉及到多变量且变量之间存在很强的相关性时，我们可考虑使用主成分分析的方法来对数据进行简化。降维是将高维度的数据（指标太多）保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。

2023-11-23 02:02:26 1746

原创【Qt报错】qt.network.ssl: QSslSocket: cannot resolve xxxx

Qt编译运行项目时出现报错。

2023-11-15 23:14:24 305

原创自定义中文词云图R语言实现（wordcloud2\jieba）

1首先，加载所需的R包，其中包括jiebaR和wordcloud2，这些包用于分词和生成词云图。2通过readLines()函数，读取文本文件 “sanguo1.txt” 的内容，文件路径是 “D:\个人文件\课内学习\大三上\数据分析可视化\sanguo1.txt”，并使用UTF-8编码进行读取。3创建分词器 mixseg，这个分词器是jiebaR包的一部分，用于对文本进行分词。

2023-11-11 14:26:02 1006 1

原创 Lowess局部加权回归算法的python、R语言实现

本文大部分理论参考该博客仅用于自己学习记录。

2023-10-12 02:39:38 1615

原创【机器学习笔记】

形式化定义：假设用P来评估计算机程序在某个任务类T上的性能，若一个程序通过利用经验E在T中任务上获得性能改善，则我们就说关于T和P，该程序对E进行了学习【Mitchell，1997】任务T经验E性能指标P说人话：机器学习就是研究如何通过计算手段，利用经验来改善系统自身的性能。

2023-10-04 15:29:22 222

【机器学习小实验2】逻辑回归实例-乳腺癌肿瘤预测（数据+源码）

2024-05-24

3.2SVC波士顿房价预测.ipynb

一、实验目的 1.掌握支持向量机回归算法。 2.熟悉sklearn 支持向量机相关的API。 3.掌握不同支持向量机的调用。实验结果显示不同核函数对支持向量机的性能产生了显著影响。在这个特定的房价预测问题上，线性核函数表现最好，这可能是因为数据集的线性关系较为明显。因此，在使用支持向量机时，选择合适的核函数非常关键。 MSE、MAE 和 R-squared 是评估回归模型性能的重要指标。MSE 和 MAE 衡量了预测误差的大小，而 R-squared 则描述了模型对目标变量的解释能力。综合考虑这些指标有助于更好地评估模型的表现。实验中未对数据进行标准化处理。在某些情况下，特别是对于使用核函数的支持向量机算法，对数据进行标准化或缩放可以改善模型的性能。在模型选择和评估上，可以尝试其他的参数调优策略或模型集成方法来进一步提高模型的性能。同时，对数据进行更深入的探索和特征工程也可能有助于提升模型的预测能力。本次实验对支持向量机在波士顿房价预测中的应用进行了探索，并针对不同核函数的模型进行了评估。了解了不同核函数的影响以及模型评估指标的重要性，这对于实际问题的建模和预测具有

2024-04-21

实验4-基于决策树和随机森林的鸢尾花分类-部分代码.ipynb

实验目的 1.掌握基于决策树和随机森林构建鸢尾花种类预测模型的步骤 2.理解决策树算法的原理 3.理解决策树算法的主要参数（剪枝参数） 4.掌握集成算法的使用 5.掌握树模型可视化方法通过这些实验，可以更深入地理解决策树算法的原理，包括信息熵、基尼指数等划分标准。掌握决策树剪枝参数的调整方式，以及不同参数对模型性能的影响。了解集成算法如随机森林的基本原理和参数配置方式，同时学会调整参数以提高模型性能，并掌握一些常用的模型评估和可视化方法。提高模型准确率的可能方法： 1.网格搜索（Grid Search）方法：通过系统地遍历参数组合，找到最佳参数以提高模型性能。 2.数据预处理：标准化、归一化等数据预处理方法可能对模型性能产生影响。 3.特征选择：选择最重要的特征以避免噪声和不相关特征对模型性能的负面影响。

2024-04-21

skl逻辑回归-乳腺癌分析.ipynb

一、实验目的 1.熟悉逻辑回归原理掌握sklearn逻辑回归相关API。 2.掌握LogisticRegression函数和LogisticRegressionCV的调用和调参。 3.掌握交叉验证的使用。在这个乳腺癌肿瘤预测问题上，使用默认参数的 LogisticRegression 在测试集上表现较好。通过 LogisticRegressionCV 进行正则化参数选择，虽然准确率略低，但也能得到可接受的性能。通过调整正则化参数 C，发现在此问题上 C=1 的性能最好。实验结果表明，逻辑回归在这个二分类问题上表现良好，具有较高的准确率。十折交叉验证的结果强化了模型的鲁棒性和泛化能力。可能的改进方向有以下两个：一是进一步尝试不同的特征工程方法，或者考虑特征选择，以优化模型的输入。二是可以尝试其他分类算法，比较它们在这个问题上的性能，寻找更好的模型。

2024-04-21

SVM支持向量机-手写数字识别.ipynb

实验目的 1. 掌握基于SVM算法构建手写数字识别模型 2. 熟悉支持向量机算法的调用 3. 熟悉支持向量机算法的主要参数 1. 建模流程实验中使用支持向量机（SVM）构建了手写数字识别模型，通过加载数据集、划分训练集和测试集、调参等步骤完成建模过程。 2. 模型参数理解了解了SVM中常用的参数，如核函数类型（rbf、linear、poly、sigmoid）、正则化参数C和多项式核函数的阶数degree等参数对模型性能的影响。 3. 新掌握的函数实验中使用了Sklearn中的多个函数和工具，如SVC、train_test_split、cross_val_score、roc_curve、joblib.dump和joblib.load等，加深了对这些函数的理解和应用。 4. 结论模型的性能受到多个因素的影响，包括核函数的选择、正则化参数的调节和多项式阶数的设定。优化模型性能需要综合考虑这些因素，并通过交叉验证等方法来评估模型的泛化能力。

2024-04-21

sklearn线性回归-波士顿房价预测.ipynb

sklearn线性回归-波士顿房价预测通过这个实验，我们实现了线性回归模型并使用不同的线性回归函数进行了建模。我们学会了如何使用sklearn库来加载数据、建立模型和评估模型性能。这个实验帮助我们更好地理解了线性回归的基本原理以及不同线性回归方法的区别。我们还进行了参数调优实验，通过修改Ridge、Lasso和ElasticNet中的正则化强度参数alpha以及修改ElasticNet中的l1_ratio参数来比较不同参数对模型性能的影响。这有助于我们找到最佳的参数组合以提高模型的性能。我们使用图形方式展示了模型的预测效果，将测试值和预测值进行了可视化展示。这有助于我们直观地了解模型的拟合效果。这个实验为我们提供了一个深入了解线性回归和模型评估的机会，使我们能够更好地理解如何选择和调整不同的线性回归方法以解决实际问题。这些技能在实际数据分析和建模中非常有用。

2024-04-21

R语言数据关系型图表绘制代码（含数据、代码以及介绍）

在先前的很多回归分析相关的推文中，大多都在过程中提及了一些简单的可视化方法，以帮助理解回归中的变量响应关系。在这些作图方法中，有些是特定功能R包自带的可视化方法，有些通过ggplot2绘制，还有部分直接使用base作图。相对而言，ggplot2是R里面非常专业的作图包，其同时涵括了多种类型的回归模型在内，这使回归曲线的实现更加轻松。您是否经常使用geom_smooth()拟合线性回归或LOESS平滑？除了这两种模型外，您是否还了解过ggplot2实现其它回归类型的方法，或者其它方式的回归曲线绘制函数呢？下文就列举一些示例帮助您加深印象吧。尽管如此，并不是所有回归都可以绘制图形展示。例如在二维平面或者三维空间中，可表达的信息有限，多元回归（具有多维的变量信息）就难以呈现出来。因此，本篇就以最常见的双变量关系分析（一元回归）为例，展示回归曲线通过ggplot2的绘制方法。

2024-03-09

R语言K-means聚类分析绘图（含数据）

一、什么是聚类我们知道“物以类聚，人以群分”，这里并不是分类问题，而是聚类问题。两者主要区别在于，分类是将一组数据根据不同的类区分，已经知道有哪些类，也就是数据已经有了类的标签。而聚类是一种事先不知道有多少类，通过算法学习，分出来了一些类别。因此，分类跟聚类分别属于有监督学习和无监督学习的范畴。聚类是从数据集中对观测值进行聚类的机器学习方法。它的目标是聚类相似观测值，不同类别之间差异较大。聚类是一种无监督学习方法，因为它仅尝试从数据集中发现结构，而不是预测应变量的值。市场营销中，有时候需要对客户进行分类，可通过如下信息：家庭收入、住房面积、户主职业、据城区距离对客户进行分类。利用这些信息进行聚类，可识别相似家庭，从而能够识别某类型家庭可能购买某种产品或对某种类型的广告反应更好。二、k-means聚类算法介绍 k 指的是初始规定要将数据集分成的类别，means是各类别数据的均值作为中心点。算法步骤为： 1.初始设置要分成的类别 k ，及随机选取数据集中 k 个点作为初始点； 2.根据相似性度量函数将其他点与初始点做比较，离哪个值近就分到哪一个类； 3.将分出来的 k 类

2024-03-09

lowess局部加权回归算法python、R语言实现（包含数据可直接运行）.zip

内容概要：通过带着读者手写熟悉lowess局部加权回归算法的核心思想、权值函数选择、权值函数编写残差计算与迭代等内容。适合人群：具备一定编程基础，熟悉R语言以及python的人员应用场景：Lowess局部加权回归算法本质作用就是**拟合数据的趋势线**，常见用于解决预测问题和平滑问题。 - 在解决预测问题时，利用趋势线来做预测数据，适用于周期性和波动性的数据； - 在做数据平滑的时候，对有趋势或季节性的数据不能简单使用均值正负三倍标准差以外做异常值剔除，因此将趋势线作为基线，剔除偏离基线距离较远的真正异常值。

2024-03-04

【机器学习/西瓜书】习题集合（含答案以及解析）

内容概要：机器学习的习题（非西瓜书课后例题），主要包含一些常见常考的选择题和填空题，适用于机器学习课程的闭卷考试。适用人群：大学生使用场景：期末考试前

2024-03-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人