浩瀚星辰 Vast Stars-CSDN博客

原创机器学习之支持向量机SVM

gamama：值越大，高斯分布越窄（数据变化越剧烈，易过拟合），反之，值越小，高斯分布越宽（数据变化越平缓），易欠拟合，rbf是高斯核。若想找到具有最大间隔划分超平面，也就是要找到能满右足式中约束参数w和b，使得间隔γ最大。C值越大，间隔越小，落在间隔中的违例越少，反之，C值越小，间隔越大，违例越多。允许部分样本，在最大间隔之间，甚至在错误的一边，寻找最大间隔，即软间隔。将原始输入空间映射到新的特征空间，使得原本线性不可分样本在核空间可分。若样本线性可分，且所有样本分类正确情况下，寻找最大间隔，即硬间隔。

2024-05-21 10:42:41 920

原创机器学习汇总（思维导图方式）

若需要看详细内容，可看其他文章

2024-05-18 18:33:46 384 1

原创机器学习之聚类学习

根据每个类别样本点，重新计算出新聚类中心点(平均值)，若计算出的新中心与原中心点重叠，则停止聚类，否重新进行第2步过程，直到聚类中心不再变化。在决定什么时候停止训练时，肘形判断同样有效，数据通常有更多噪音，在增加分类无法带来更多汇报时，即停止增加类别。，将样本划分到不同类别种，不同相似度计算方法，会得到不同聚类结果，常用相似度计算方法为：欧氏距离。对于n个数据集，迭代计算k from i to n，每次聚类完成后计算SSE。整型状，缺省值=8，生成聚类数，即产生质心(centroids)数。

2024-05-18 18:28:10 520

原创机器学习之朴素贝叶斯+特征降维

且|r|越接近1，两变量间线性关系越密切；条件概率：表示事件A在另外一个事件B已经发生条件下的发生概率，P(A|B)相互独立：如果P(A|B) =P(A)P(B),则称事件A与事件B相互独立。当|r|=1时，表示两变量为完全相关，当r=0时，表示两变量间无相关关系。联合概率：表示多个条件同时成立的概率，P(AB) =P(A)特征方差小：特征值波动范围小，包含信息少，模型很难学习到信息。当r>0时，表示两变量正相关，r<0时，两变量为负相关。当0<|r|<1时，表示两变量存在一定程度相关。

2024-05-17 20:57:22 559

原创机器学习之集成学习

仅是机器学习中一种思想，通过多种模型(算法)组合形成一个精度更高模型，参与组合模型称为弱学习器。2.根据更新数据集权重，来训练第2个弱学习器，再找最小的错误率计算模型权重，再更新模数据权重。结果大于0为正类，反之为负类。如果某节点不纯度(基尼系数，均方差)小于这个阈值，则该节点不在生成子节点，并变为叶子节点。迭代训练再前一个学习器基础上，根据新的样本权重训练当前学习器，直到训练出m个弱学习器。1.初始化数据权重，训练第一个弱学习器，找最小错误率计算模型权重，再更新模型数据权重。

2024-05-17 08:17:26 1304

原创机器学习之决策树

特征a对训练数据集D信息增益g(D,a),定义为集合D的熵H(D)与特征a给定条件下D的熵H(D|a)之差。2.可处理连续数值型属性，也增加了对缺失值处理方法 3.只适合于能够驻留于内存的数据集，大数据集无能为力。故，Gini(D)值越小，数据集D纯度越高。gini或entropy，前者代表基尼指数，后者代表信息增益，默认gini，即CART算法。分类树使用叶子节点多数类别作为预测类别，回归树则采用叶子节点里均值作为预测输出。若当前节点划分不能提高决策树泛化性能，则停止划分并将当前节点标记为叶节点。

2024-05-14 18:16:33 1232

原创机器学习之逻辑回归

• 真实值是正例的样本中，被分类为假例的样本数量有多少，叫做伪反例（FN，False Negative）• 真实值是假例的样本中，被分类为正例的样本数量有多少，叫做伪正例（FP，False Positive）• 真实值是正例的样本中，被分类为正例的样本数量有多少，叫做真正例（TP，True Positive）• 真实值是假例的样本中，被分类为假例的样本数量有多少，叫做真反例（TN，True Negative）也叫查全率，指的是预测为真正例样本占所有真实正例样本的比重。

2024-05-11 22:19:53 798

原创机器学习之线性回归

因学习率（步长）过大导致，例如你从山坡走到坡底，假设到达坡底共需5步，而步长设置为2，在第三次时，会直接跨过损失函数最低点，然后不得不折返（根据当前位置梯度来更新参数），再试着往下走。就是在训练神经网络时，网络结构较深，权重初始化不合理或使用了不合适激活函数，梯度在反向传播就会累积的特别大，故形成“梯度爆炸”，出现NAN。单变量函数中，梯度就是某一点切线斜率（某一点导数），有方向为函数增长最快方向。有方向，偏导数分量的向量方向。向量是有大小和方向，几何意义上表示：向量(1,1),向量(1,2)

2024-05-08 20:34:59 945

原创 K近邻算法概述

print(transformer.fit_transform(data)) # fit_transform是一种归一化方法，输入原始数据，输出归一化后的数据。类别选择不要用偶数，比如，现有4个类别，2个猫类，2个狗类，现在新数据插入进来，但由于类别都相等，故无法判定属于哪一类。K值不要偶数，尽量选奇数，比如，现有4个人投票个AB，现在都分别给AB投票2票，这样就形成了平数，导致无法判断。一个样本在特征空间（训练集中的样本数据）中的K个最相似的样本中大多数属于某一个类别，则该样本也属于这个类别。

2024-05-05 20:51:00 1071

原创通过KNN算法实现鸢尾花展示

sns.lmplot(x ='petal length (cm)', y ='petal width (cm)', data = iris_dataFrame, hue = '标签', fit_reg = False) # 画散点图。x_train = train.fit_transform(x_train) # 训练集标准化。print(knn.predict_proba(new_data)) # 预测概率。print(knn.score(x_test,y_test)) # 模型评估。

2024-05-05 20:45:33 628

原创机器学习概述

原始数据特征较多，与任务相关是其中一个特征集合子集，不会改变原数据。选择合适算法对模型进行训练，例如K近邻算法、线性回归、决策树等。因量纲问题，有些特征对模型影响大/小，归一化或标准化处理。对数据特征进行提取、转成向量、让模型达到最好效果。对任务有用的属性信息，利用专业指示和技巧处理数据。原始数据中提取与任务相关的特征，构成特征向量。多个特征合并成一个特征，利用乘法或加法来完成。模型在训练集上表现很差，在测试集表现也很差。模型在训练集表现很好，在测试集表现很差。处理数据中异常值，缺失值处理。

2024-05-04 20:11:55 253

原创简述python中pandas日期数据类型及数据可视化格式

数据可视化指可直观展现数据将数值绘制成图像，便于更加直观理解数据，纯看数据表过于费时有助于揭示数据中隐藏模式，在数据分析时，可利用浙西模式选择模型。

2024-04-27 20:43:59 1539 2

原创在Pandas中连接文件，实现更改列名或行索引

Pandas数据组合。

2024-04-23 17:16:09 981

原创跳跃游戏精细化版

关键在于每一步都尽可能地更新，从而确保我们不会错过任何可能到达数组的末尾路径。O(n)，代码遍历了数组nums一次，没有嵌套循环或其他会增加时间复杂度的操作。因此，时间复杂度是O(n)，其中n是数组nums的长度。O(1)，代码中只使用了几个变量（max_distance和i，jump）来追踪当前能够到达的最远位置,当前下标，当前位置的值。这些变量不随数组nums的大小变化而增加，因此空间复杂度是O(1)。

2024-04-20 22:45:05 715

原创 python中数据分析开源库有哪些？

概述：Matplotilib的改良版，集成了pandas数据结构，通过更简洁API来绘制更加丰富，具有吸引力的图像。建议：在面向数据集API，与padans配合使用，比Matplotlib更方便。conda install 包名字 pip install 包名字。可高效完成数据分析相关全部工作。概述：使用最多的图形绘图库，可以创建静态，动态和交互式图表。作用：用于数据挖掘和数据分析，同时也提供数据清晰功能。建立在NumPy，SciPy和Matplotlib上。可创建和共享代码、公式、可视化图表、笔记文档。

2024-04-19 07:50:22 481

原创 MySQL中统计各科成绩各分数段人数：课程编号，课程名称，[100-85]，[85-70]，[70-60]，[60-0] 及所占百分比，运用2种实现方法

计算百分比,通过round，将小数点保留1位方法1。# 计算百分比，通过round ，将小数点保留1位，方法2。# 用到了2张表，一张成绩表，一张成绩表。# 计算各分数段人数方法1。# 计算各分数段人数方法2。

2024-04-18 21:03:55 1412

原创 MySQL34题附答案

- 需求7: 提供订单编号为10248的相关信息，包括product name, unit price (在 order_items 表中), quantity（数量）,company_name（供应商公司名字，起别名 supplier_name).-- 需求3: 查询每一个商品的product_name, category_name, quantity_per_unit, unit_price, units_in_stock 并且通过 unit_price 字段排序。

2024-04-18 16:39:37 1166

原创通过python，实现跳跃游戏，涉及贪心算法

print(Solution().canJump(list_nums)) # 无法从位置0跳到位置3，因为nums[0] = 3，加上当前位置0，并不能到达末尾，因此返回False。# 例如，给定数组[2,3,1,1,4]，表示从起点出发，可以跳跃2步，跳到位置3，然后跳1步，跳到位置4，跳4步到达末尾。# 对于数组[3, 3, 1, 1, 4]，从位置0出发，可以跳到位置3，然后跳1步，跳到位置4，跳4步到达末尾。# 1. 遍历数组，对于每个位置，判断能否到达，如果能到达，则更新最远能到达位置。

2024-04-18 16:33:05 385 1

原创通过python，实现二叉树广度和深度设计

判断左子树是否为空，若不为空，则添加到队列中。# 判断右子树是否为空，若不为空，则添加队列中。return # 根节点已存在，不再添加。# 循环判断，哪个节点为空，将新节点加入该节点。# 判断根节点是否为空，若为空，则返回。# 遍历二叉树，深度优先，先序遍历（根左右）# 遍历二叉树，深度优先，后序遍历 (左右根)# 判断该节点右子树是否为空。# 判断根节点是否为空,不为空则执行。# 判断根节点是否为空，不为空则执行。# 判断根节点是否为空，不为空则执行。# 判断该节点左子树是否为空。

2024-04-11 19:03:41 571 2