- 博客(48)
- 问答 (8)
- 收藏
- 关注
原创 Kaggle竞赛——灾难推文分类(Disaster Tweets)
竞赛的数据集中,训练集有7613个样本,测试集有3263个样本。训练集中的`target`用于标识推文是否属于灾难推文(1表示灾难推文,0表示非灾难推文),最终任务是判断测试集中的推文样本是否为灾难推文,评估指标是F1值。竞赛使用的模型是DistilBert,DIstilBERT是 transformers 库中的模型。提交代码后最终评分(F1值)为0.82071。
2024-10-25 12:00:35 815
原创 ExtraTree|GBDT|XGBoost模型原理
ExtraTree、GBDT 和 XGBoost 都是基于决策树的算法。ExtraTree属于Bagging(装袋法)方法,GBDT和XGBoost则属于Boosting(提升树)方法,通过逐步优化残差(GBDT使用一阶导数,XGBoost结合了一阶和二阶导数)来生成树。
2024-10-13 21:55:37 636
原创 Kaggle竞赛——森林覆盖类型分类
本次竞赛的数据集包含训练集和测试集,数据集的研究区域包含位于科罗拉多州北部罗斯福国家森林的四个荒野区域,这些区域受人为干扰影响最小,每个观测样本的区域大小为 30m x 30m。其中,训练集大小有15120个样本,测试集有565892个样本。共56个特征,7种类别(用数字1-7表示),第一列为样本`Id`列,最后一列`Cover_Type`为标签列。最终评分为0.78729。
2024-10-12 19:54:08 907
原创 Kaggle竞赛——手写数字识别(Digit Recognizer)
竞赛使用的是 MNIST (Modified National Institute of Standards and Technology, 美国国家标准与技术研究院修改版) 手写图像数据集,其中训练集42000条,测试集28000条,每条数据有784 个像素点,即原始图像的像素为 28 * 28。训练集中的Label列表示手写数字的类别(共10个类别,0-10)。
2024-09-02 17:03:11 1296 5
原创 Kaggle竞赛——心脏病患者预测与可视化
Kaggle中已经没有对应的比赛,所以只能从数据集中划分出测试集以验证模型的准确率。模型仅使用随机森林,本文侧重点在于数据分析的可视化和模型可解释性分析。所使用的python虚拟环境、数据集和代码已打包上传到Gitee,。
2024-08-17 17:03:16 1551
原创 服务器利用宝塔面板部署Django项目
记录服务器部署Django项目的三种方法,由于项目没有用到数据库服务,所以部署过程不涉及数据库相关的连接和配置(后续使用到数据库再补充)
2024-07-22 18:15:30 1529
原创 Kaggle竞赛——房价预测
Kaggle房价预测,含特征分析与数据处理,通过超参数优化函数寻找最佳参数,最终使用XGBoost模型预测结果。本次官网提交的得分是0.13227,排名1209(提交日期:2024年6月30日)。
2024-07-01 16:05:12 1937 1
原创 机器学习算法——主成分分析(PCA)
具体来说,第一主成分是数据中方差最大的特征(即该特征下的值的方差最大),数据点在该方向有最大的扩散性(即在该方向上包含的信息量最多)。第二主成分与第一主成分正交(即与第一主成分无关),并在所有可能正交方向中,选择方差次大的方向。然后,第三主成分与前两个主成分正交,且选择在其余所有可能正交方向中有最大方差的方向,以此类推,中,紫色线方向上数据的方差最大(该方向上点的分布最分散,包含了更多的信息量),则可以将该方向上的特征作为第一主成分。表示已经中心化后的值),协方差矩阵的计算(二维)
2023-11-24 23:48:09 2131
原创 机器学习算法——聚类算法
聚类算法是一种无监督学习方法,用于将数据集中的对象分组或聚集成具有相似特征的集合,该集合被称为簇(cluster)。聚类算法通过计算数据点之间的相似性或距离,将相似的数据点归为同一簇,使簇内差距最小化,簇间差距最大化,从而将数据集划分为多个互相区分的组。聚类算法的目标是在无标签的情况下,发现数据中的内在结构和模式。聚类算法可以发现数据中的隐藏模式、异常值或离群点,以及进行数据预处理和可视化。
2023-11-23 16:02:18 1481
原创 机器学习算法——集成学习
Bagging(bootstrap aggregating:自举汇聚法)也叫装袋法,其思想是通过将许多相互独立的学习器的结果进行结合,从而提高整体学习器的泛化能力,是一种并行集成学习方法。且Bagging的准确率可能会比单分类器的准确率低。
2023-11-18 17:04:02 671
原创 机器学习算法——线性回归与非线性回归
例如两个变量之间成正比(例如:x1 为房子的面积,单位是平方英尺;x2为房子的面积,单位是平方米;不可逆的情况很少发生,如果有这种情况,其解决问题的方法之一便是使用正则化以及岭回归等来求最小二乘法。的适用范围更广,可以用于描述非线性或者有两个及两个以上自变量的相关关系,它可以用来评价模型的效果。常用相关系数来衡量两个变量间的相关性,相关系数越大,相关性越高,使用直线拟合样本点时效果就越好。下图的样本点中,左图的相关系数为0.993,右图的相关系数为0.957,即。由推导的公式可知,需要满足的条件是。
2023-11-11 11:16:29 797
原创 使用 ip2region 获取用户的 IP 归属地
ip2region 是一个离线IP地址定位库和IP定位数据管理框架,10微秒级别的查询效率,提供了众多主流编程语言的 xdb 数据生成和查询客户端实现。国家|区域|省份|城市|ISP,只有中国的数据绝大部分精确到了城市,其他国家部分数据只能定位到国家,后前的选项全部是0。
2023-04-19 22:25:42 5199
原创 Editor.md 的使用方法及图片处理
出于项目需要,在去除多余文件后 Editor.md 的一些渲染样式也被我修改,将资源(精简后 Editor.md 资源。JS 中的属性和值可参考资源下的。
2023-03-04 17:04:50 1022
原创 将IDEA的项目托管到gitee
可能是因为在手动修改了远程仓库中的文件,导致一些文件在本地仓库和远程仓库上不一致从而发生冲突。代码含义:允许合并两个没有共同祖先的分支。在项目文件所在地方右键,选择。代码含义:强制提交与合并。
2023-03-01 20:07:19 1057
原创 粘性定位解析
粘性定位可认为是相对定位和固定定位的结合,元素在跨越特定阈值前表现为相对定位,之后表现为固定定位。粘性定位的元素依赖于用户的滚动,在 relative 与 fixed 定位之间切换。四个阈值其中之一,才可使粘性定位生效,否则其行为与相对定位相同。该样例使黄色的块元素在距离顶部。该样例使黄色的块元素在距离顶部。
2023-02-27 22:02:07 593
原创 Spring Boot系列04--静态资源处理
Spring Boot 的版本是 2.7.8,tomcat 的版本是 9.0.71。Spring Boot 通过内嵌的 tomcat 来运行项目,但需要依靠本地的 java 环境,我本地的 java 版本是 Java 1.8.0_261(即 java 8 版本),一般 java 8 和 tomcat 8.x.x 配套使用,这里可能是版本冲突导致的问题。将项目的 SDK 改为。注:一旦自定义了静态文件夹的路径,则默认的静态资源路径就会失效。时 ,会默认映射到静态资源文件夹下的 index.html。
2023-02-26 23:08:37 687
原创 Spring Boot系列03--自动配置原理
容器启动的时候会加载很多自动配置类,但是这些自动配置类需在特定条件满足的情况下才会起作用,即必须是@Conditional指定的条件成立时,才将组件添加到容器,配置里面的所有内容才生效。Spring Boot 启动时会加载大量的自动配置类(下图文件中的Auto Configure部分,但是我的文件没发现),每一个 xxxAutoConfiguration 类都是容器中的一个组件,并且都会加入到容器中,这些自动配置类在某些条件之才会生效。该注解使用时必须将对象注入到 IOC 容器中才有配置绑定的功能。
2023-02-25 10:23:44 552
原创 Spring Boot系列01--创建第一个Spring Boot项目
Spring Web插件能为项目集成Tomcat、配置dispatcherServlet和xml文件。至此,SpringBoot项目搭建成功。在target目录下打开命令行终端,输入。在IDEA中新建项目,选择。将版本改为2.7.8即可。项目启动后在地址栏输入。
2023-02-21 16:21:26 348
原创 Java算法解题小记
Java算法解题速记1. 返回两个整数中的最小值2. 返回三个整数中的最小值3. 将小数以百分号的形式输出4. 检查字符串是否为纯数字1. 返回两个整数中的最小值int min2(int a, int b){ return a < b ? a : b; }2. 返回三个整数中的最小值int min3(int a, int b, int c){ int min2; return c < (min2=a < b ? a : b) ? a :
2022-09-25 15:31:24 406
原创 机器学习——支持向量机
支持向量机是一种分类器,称之为“机”是因为他会产生一个二值决策结果,即它是一种决策“机”。支持向量机的泛化错误率较低,即它具有良好的学习能力,且学到的结果具有很好推广性。
2022-01-28 12:43:39 1155
原创 机器学习实战——Logistic回归
利用Logistic回归进行分类的主要思想是根据现有数据对分类边界线建立回归公式,以此进行分类。逻辑回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可以由最优化算法来完成。常用的是梯度上升算法,而它又可以简化为随机梯度上升算法。随机梯度上升算法与梯度上升算法效果相当,但占用更少的计算资源。
2022-01-28 12:41:39 1225
原创 机器学习实战——朴素贝叶斯
本次实验围绕使用贝叶斯公式进行垃圾邮件分类展开,贝叶斯公式的核心是“执果寻因”,是一种典型的后验概率,它基于原有的收集结果对先验概率进行修正并对待求解的事件进行估计。学习贝叶斯公式的同时也对先验概率、后验概率、条件概率和全概率公式进行了简单的回顾,条件概率和全概率公式是推导贝叶斯公式的基础所在。此外,在求解某个词在出某个类中出现的概率时需进行“拉普拉斯”修正,同时也需注意结果的下溢出(过多很小的数相乘,可采用取自然对数的方法来避免)。
2022-01-28 12:40:46 671
原创 机器学习实战——决策树
ID3算法(Iterative Dichotomiser 3)是一种基于信息熵的决策树分类学习算法,以信息增益和信息熵作为对象分类的衡量标准,ID3算法的核心思想:根据样本子集属性取值的信息增益的大小来选择决策属性(即决策树的非叶子结点),并根据该属性的不同取值生成决策树的分支,再对子集进行递归调用该方法,当所有子集的数据都只包含于同一个类别时结束。最后,根据生成的决策树模型,对新的、未知类别的数据对象进行分类。C4.5算法是ID3算法的一种延伸和优化,通过信息增益率选择分裂属性。
2022-01-28 12:38:40 1179
原创 C++实验二(继承和多态)
面向对象编程的核心三要素:封装、继承、多态(不同继承关系的类对象去调同一函数时产生不同的行为)外部函数只能访问类中public权限的变量或者成员函数,而不能访问protected和private权限的变量或者成员函数派生类的继承方式与派生类能访问基类的哪些权限的属性没有关系虚继承是在继承时使用virtual将被继承的类声明为虚基类,使公共基类的成员在重复继承的派生类中只产生一个拷贝友元类的访问权限不可被继承。
2022-01-27 20:50:27 248
原创 机器学习实战——K-近邻算法的应用
从以上实例中可以发现KNN算法的基本思路是将测试样本通过算法在训练样本中预测其类别,其预测精度受多方面因素的影响,例如训练数据的正确性和规模、算法的实现过程、参数值k的选取等等。KNN算法的识别过程相当于蛮力识别,因为每个测试向量都要对训练集里的每一个数据进行距离运算,实际运用时可以发现其执行效率并不高。但是KNN算法的实现思路较为清晰、易于理解,对刚接触图像识别的新手提供了一个清晰直观的思路,同时也能为后续的算法提供很多实用性的方法。
2022-01-27 20:49:27 412
原创 C++实验一(CMatrix类的设计与实现)
本次实验的知识重点是函数的重载,函数重载的定义如下:重载是指在同一个作用域内,可以声明几个功能类似的同名函数,但是这些同名函数的形式参数(指参数的个数、类型或者顺序)必须不同。且不能仅通过返回类型的不同来重载函数。本次实验重点学习了C++中构造函数的使用以及一些运算符的重载,了解了构造函数中初始化值域的不同方法,也让我对C++中对类的抽象封装和成员函数有了更加深入的理解,函数的重载使得对于类中成员变量的操作变得更加的细化。
2022-01-27 20:48:35 315
原创 L1-011 A-B (20 分)
本题要求你计算A−B。不过麻烦的是,A和B都是字符串 —— 即从字符串A中把字符串B所包含的字符全删掉,剩下的字符组成的就是字符串A−B
2022-01-27 20:46:24 167
原创 机器学习实战——K-近邻算法
K-近邻算法(K-Nearest Neighbor),顾名思义,即选取最接近的数据进行分类的一种算法,它采用测量不同特征值之间的距离方法来进行分类。工作原理:存在一个样本数据集(训练样本集),并且样本集中的每一个数据都存在标签,即我们知道样本集中每一项数据与所属分类的对应关系,在输入没有标签的新数据时,将新数据的每个特征与样本集中数据对应的特征进行比较,最后根据算法提取样本集中最相似数据(最近邻)的分类标签。
2022-01-27 20:39:07 352
原创 Java中字符串的比较问题
Java中字符串的比较问题1. 问题引入2. 问题分析1. 问题引入案例1:public class test01 { public static void main(String[] args) { String str1 = "hello"; String str2 = "hello"; System.out.println(str1==str2); }}输出结果为:true案例2:public class test02
2021-09-14 13:13:04 165
原创 L1-003 个位数统计(Java) (15 分)
给定一个 k 位整数 N=(dk−1)*(10)k−1+⋯+(d1)*(10)1+d0 (0≤di≤9, i=0,⋯,k−1, dk−1>0),请编写程序统计每种不同的个位数字出现的次数。例如:给定 N=100311,则有 2 个 0,3 个 1,和 1 个 3。输入格式:每个输入包含 1 个测试用例,即一个不超过 1000 位的正整数 N。输出格式:对 N 中每一种不同的数字,以 D:M 的格式在一行中输出该位数字 D 及其在 N 中出现的次数 M。
2021-09-09 16:43:47 279
原创 JDBC关键步骤及代码
JDBC关键步骤及代码JDBC简介实现代码代码解析1. 注册驱动2. 获取连接3. 获取数据库操作对象4. 执行sql语句5. 处理查询结果集6. 释放资源JDBC简介JDBC全称为java database connectivity(Java数据库连接),是sun公司指定的java数据库连接技术的简称。它是sun公司和数据库开发商共同开发出来的独立于DBMS的应用程序接口,它为java程序员进行数据库编程提供了统一的API。实现代码import java.sql.Connection;impor
2021-06-05 21:07:49 3087
原创 MySQL触发器的使用
MySQL触发器的使用1. 触发器定义2. 触发器类型3. 建立触发器4. 删除触发器1. 触发器定义触发器定义:触发器又叫做事件-条件-动作规则,当特定的系统条件(如对一个表的增、删、改操作,事务的结束等)发生时,对规则的条件进行检查,如果条件成立则执行规则中的动作,否则不执行该动作。2. 触发器类型触发器按照所触发动作的间隔尺寸可分为:行级触发器(for each row)语句级触发器(for each statement)行级触发器表示执行完触发事件后才执行一次触发器中的动作,
2021-05-04 18:26:14 415
原创 MySQL常用命令
MySQL常用命令1.连接数据库1.连接数据库本篇所有指令操作均在环境变量配置成功的情况下进行mysql指令用于连接数据库(1)连接本地MySQLmysql -u 用户名 -p用户密码(-p和密码之间无空格,-u后的空格可省略)或mysql -u 用户名 -p(回车输入密码即可)(2)连接远程MySQLmysql -h主机地址 -u 用户名 -p用户密码...
2021-04-23 15:53:09 132
空空如也
从服务器中的MYSQL取出的时间会多带一个0
2023-03-02
本地能正常运行的项目部署到服务器上后无法访问数据库
2023-02-19
SSM项目部署到服务器访问无响应
2023-02-17
jsp使用KaTeX渲染数学公式出错
2021-10-30
找一个适合用于ID3(信息增益)算法的简单数据集(100个样本以上)
2021-10-23
后台从数据库获取内容的第一张照片作为缩略图
2021-09-27
阿里云服务器部署项目连接数据库的问题
2021-09-19
java中的hasnext()问题
2021-09-18
SSM架构中静态资源的访问地址问题
2021-08-23
关于SSM框架整合时业务层的实现类添加@Service后仍不能创建对应bean的问题
2021-08-21
TA创建的收藏夹 TA关注的收藏夹
TA关注的人