东海小猪-CSDN博客

原创 Lanqiao3162：Frog（线性DP）

一只名叫 “雾" 的小青蛙在回家的路上。路径长度为 N (1≤N≤100)，沿途有许多昆虫。假设雾的原始坐标为 0。雾可以静止不动，也可以向前跳跃若干个单位，跳跃的范围在 A∼B 之间。雾会把所有的昆虫吃掉，不管它在哪里，但它跳 K 次就会累了，跳不动了。给出了路径上每个位置昆虫的数量（总是小于 10000）。"雾" 最多能吃多少只昆虫？注意，雾只能在 [0,N] 范围内跳跃，每当他跳跃时，他的坐标就会增加。输入格式：输入第一行包含一个整数 T(1≤T≤10)，表示测试用例的数量。

2025-06-12 17:51:13 125

原创数据挖掘——聚类

划分方法定义：将有n 个对象的数据集D划分成k个簇，并且k≤n，满足如下的要求：每个簇至少包含一个对象每个对象属于且仅属于一个簇首先创建一个初始k划分( k为要构造的划分数)然后不断迭代地计算各个簇的聚类中心并依新的聚类中心调整聚类情况，直至收敛同一个簇中的对象之间尽可能“接近”或相关不同簇中的对象之间尽可能“远离”或不同划分方法聚类质量评价准则：最小化E值E=∑i=1k∑p∈Ci(d(p,ci))2E = \sum_{i=1}^{k} \sum_{p \in C_{i}} \left( d\left(

2025-06-08 00:05:38 897

原创数据挖掘——关联规则挖掘

关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系，所发现的模式通常用关联规则或频繁项集的形式表示。关联规则反映一个事物与其它事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物发生就能够预测与它相关联的其它事物的发生。项集（Itemset）包含0个或多个项的集合。包含k个项就是k-项集支持度计数（Support count ）：包含特定项集的事务个数支持度（Support）包含项集的事务数与总事务数的比值。

2025-06-08 00:00:57 947

原创数据挖掘——初步

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是多学科交叉的产物，融合了数据库、统计学、可视化、高性能计算、机器学习、人工智能大语言模型（LLM）是一种基于深度学习技术构建的人工智能模型，专门用于处理和生成自然语言文本。通过在海量文本数据上进行训练，学习语言的模式、语法、语义和上下文关系，从而能够理解和生成自然语言文本。数据挖掘为大语言模型提供了数据支持；

2025-06-07 23:53:50 1078

原创数据挖掘——分类模型的评价

数据分析模型训练和验证过程：数据预处理 → 模型训练 → 模型调整 → 对新数据分类 → 模型评价一般我们会将原有数据集划分成训练集和检验集，通过训练集训练出模型，再通过检验集对模型效果进行检验评估。

2025-06-06 17:33:29 904

原创数据挖掘——神经网络分类算法

梯度消失在深度学习中是一个十分重要的问题，我们在深度网络中加了很多层这样的非线性激活函数，这样的话，即使第一层的参数有很大的变化，也不会对输出有太大的影响。Marvin Minsky, Perceptrons证明了单层感知器无法执行“异或问题”，这里的异或问题是什么意思呢，如果是线性的数据，我们可以用一条直线将数据点分成两部分，但是如果数据相互交织，我们是没法做到这样的分类的。输入次序不同，也会造成不一样的学习结果，因此，在每一次的学习循环中，输入向量输入网络的次序应使其不同。

2025-06-06 16:53:00 1188

原创数据挖掘——决策树分类

顾客数据的熵值：$Entropy(S) = -\frac{9}{14} log_2\frac{9}{14} - \frac{5}{14}log_2\frac{5}{14} $策略二：选择最佳划分点，其分割区间的策略：从最小值开始建立分割区间，开始计算各自的信息增益，选择信息增益最大的一个分割区间作为最佳划分点。纯性的程度越高，类分布就越倾斜，划分结果越好。从决策树的根节点到叶节点的一条路径就形成了相应对象的类别测试，决策树可以很容易转换为分类规则。划分数为2，这种划分要考虑创建k个属性值的二元划分的所有。

2025-06-03 22:29:04 670

原创数据挖掘——贝叶斯分类

找出描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象的类标号。

2025-06-03 17:10:05 1056

原创数据挖掘——数据预处理

那就是这些被选的主成分所代表的主轴的长度之和占了主轴长度总和的大部分。主成分分析就是设法将原来众多具有一定相关性的属性（比如p个属性），重新组合成一组相互无关的综合属性来代替原来属性。其主要目的是通过对原始数据进行一系列的处理和转换，减少数据的复杂性和冗余性，同时尽可能保留原始数据的完整性和关键特征。核心思想：数据中很多属性之间可能存在这样或那样的相关性，能不能找到一个方法，将多个相关性的属性组合仅仅形成一个属性。因此，如果数据集维度很高，而训练集数目很少，在使用复杂的机器学习模型的时候，首选先降维。

2025-06-03 14:23:03 953 1

原创 Lanqiao19717：挖矿

小蓝正在数轴上挖矿，数轴上一共有 n 个矿洞，第 i 个矿洞的坐标为 ai。小蓝从 0 出发，每次可以向左或向右移动 1 的距离，当路过一个矿洞时，就会进行挖矿作业，获得 1 单位矿石，但一个矿洞不能被多次挖掘。小蓝想知道在移动距离不超过 m 的前提下，最多能获得多少单位矿石?输入格式：输入的第一行包含两个正整数 n,m 用一个空格分隔。第二行包含 n 个整数 a1,a2,⋯ ,an 相邻整数之间使用一个空格分隔。输出格式：输出一行包含一个整数表示答案。

2025-05-28 19:59:21 232