自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 机器学习之支持向量机SVM

gamama:值越大,高斯分布越窄(数据变化越剧烈,易过拟合),反之,值越小,高斯分布越宽(数据变化越平缓),易欠拟合,rbf是高斯核。若想找到具有最大间隔划分超平面,也就是要找到能满右足式中约束参数w和b,使得间隔γ最大。C值越大,间隔越小,落在间隔中的违例越少,反之,C值越小,间隔越大,违例越多。允许部分样本,在最大间隔之间,甚至在错误的一边,寻找最大间隔,即软间隔。将原始输入空间映射到新的特征空间,使得原本线性不可分样本在核空间可分。若样本线性可分,且所有样本分类正确情况下,寻找最大间隔,即硬间隔。

2024-05-21 10:42:41 810

原创 机器学习汇总(思维导图方式)

若需要看详细内容,可看其他文章

2024-05-18 18:33:46 177

原创 机器学习之聚类学习

根据每个类别样本点,重新计算出新聚类中心点(平均值),若计算出的新中心与原中心点重叠,则停止聚类,否重新进行第2步过程,直到聚类中心不再变化。在决定什么时候停止训练时,肘形判断同样有效,数据通常有更多噪音,在增加分类无法带来更多汇报时,即停止增加类别。,将样本划分到不同类别种,不同相似度计算方法,会得到不同聚类结果,常用相似度计算方法为:欧氏距离。对于n个数据集,迭代计算k from i to n,每次聚类完成后计算SSE。整型状,缺省值=8,生成聚类数,即产生质心(centroids)数。

2024-05-18 18:28:10 441

原创 机器学习之朴素贝叶斯+特征降维

且|r|越接近1,两变量间线性关系越密切;条件概率:表示事件A在另外一个事件B已经发生条件下的发生概率,P(A|B)相互独立:如果P(A|B) =P(A)P(B),则称事件A与事件B相互独立。当|r|=1时,表示两变量为完全相关,当r=0时,表示两变量间无相关关系。联合概率:表示多个条件同时成立的概率,P(AB) =P(A)特征方差小:特征值波动范围小,包含信息少,模型很难学习到信息。当r>0时,表示两变量正相关,r<0时,两变量为负相关。当0<|r|<1时,表示两变量存在一定程度相关。

2024-05-17 20:57:22 476

原创 机器学习之集成学习

仅是机器学习中一种思想,通过多种模型(算法)组合形成一个精度更高模型,参与组合模型称为弱学习器。2.根据更新数据集权重,来训练第2个弱学习器,再找最小的错误率计算模型权重,再更新模数据权重。结果大于0为正类,反之为负类。如果某节点不纯度(基尼系数,均方差)小于这个阈值,则该节点不在生成子节点,并变为叶子节点。迭代训练再前一个学习器基础上,根据新的样本权重训练当前学习器,直到训练出m个弱学习器。1.初始化数据权重,训练第一个弱学习器,找最小错误率计算模型权重,再更新模型数据权重。

2024-05-17 08:17:26 1117

原创 机器学习之决策树

特征a对训练数据集D信息增益g(D,a),定义为集合D的熵H(D)与特征a给定条件下D的熵H(D|a)之差。2.可处理连续数值型属性,也增加了对缺失值处理方法 3.只适合于能够驻留于内存的数据集,大数据集无能为力。故,Gini(D)值越小,数据集D纯度越高。gini或entropy,前者代表基尼指数,后者代表信息增益,默认gini,即CART算法。分类树使用叶子节点多数类别作为预测类别,回归树则采用叶子节点里均值作为预测输出。若当前节点划分不能提高决策树泛化性能,则停止划分并将当前节点标记为叶节点。

2024-05-14 18:16:33 1158

原创 机器学习之逻辑回归

• 真实值是 正例 的样本中,被分类为 假例 的样本数量有多少,叫做伪反例(FN,False Negative)• 真实值是 假例 的样本中,被分类为 正例 的样本数量有多少,叫做伪正例(FP,False Positive)• 真实值是 正例 的样本中,被分类为 正例 的样本数量有多少,叫做真正例(TP,True Positive)• 真实值是 假例 的样本中,被分类为 假例 的样本数量有多少,叫做真反例(TN,True Negative)也叫查全率,指的是预测为真正例样本占所有真实正例样本的比重。

2024-05-11 22:19:53 740

原创 机器学习之线性回归

因学习率(步长)过大导致,例如你从山坡走到坡底,假设到达坡底共需5步,而步长设置为2,在第三次时,会直接跨过损失函数最低点,然后不得不折返(根据当前位置梯度来更新参数),再试着往下走。就是在训练神经网络时, 网络结构较深,权重初始化不合理或使用了不合适激活函数,梯度在反向传播就会累积的特别大,故形成“梯度爆炸”,出现NAN。单变量函数中,梯度就是某一点切线斜率(某一点导数),有方向为函数增长最快方向。有方向,偏导数分量的向量方向。向量是有大小和方向,几何意义上表示:向量(1,1),向量(1,2)

2024-05-08 20:34:59 866

原创 K近邻算法概述

print(transformer.fit_transform(data)) # fit_transform是一种归一化方法,输入原始数据,输出归一化后的数据。类别选择不要用偶数,比如,现有4个类别,2个猫类,2个狗类,现在新数据插入进来,但由于类别都相等,故无法判定属于哪一类。K值不要偶数,尽量选奇数,比如,现有4个人投票个AB,现在都分别给AB投票2票,这样就形成了平数,导致无法判断。一个样本在特征空间(训练集中的样本数据)中的K个最相似的样本中大多数属于某一个类别,则该样本也属于这个类别。

2024-05-05 20:51:00 974

原创 通过KNN算法实现鸢尾花展示

sns.lmplot(x ='petal length (cm)', y ='petal width (cm)', data = iris_dataFrame, hue = '标签', fit_reg = False) # 画散点图。x_train = train.fit_transform(x_train) # 训练集标准化。print(knn.predict_proba(new_data)) # 预测概率。print(knn.score(x_test,y_test)) # 模型评估。

2024-05-05 20:45:33 584

原创 机器学习概述

原始数据特征较多,与任务相关是其中一个特征集合子集,不会改变原数据。选择合适算法对模型进行训练,例如K近邻算法、线性回归、决策树等。因量纲问题,有些特征对模型影响大/小,归一化或标准化处理。对数据特征进行提取、转成向量、让模型达到最好效果。对任务有用的属性信息,利用专业指示和技巧处理数据。原始数据中提取与任务相关的特征,构成特征向量。多个特征合并成一个特征,利用乘法或加法来完成。模型在训练集上表现很差,在测试集表现也很差。模型在训练集表现很好,在测试集表现很差。处理数据中异常值,缺失值处理。

2024-05-04 20:11:55 214

原创 简述python中pandas日期数据类型及数据可视化格式

数据可视化指可直观展现数据将数值绘制成图像,便于更加直观理解数据,纯看数据表过于费时有助于揭示数据中隐藏模式,在数据分析时,可利用浙西模式选择模型。

2024-04-27 20:43:59 1004 2

原创 在Pandas中连接文件,实现更改列名或行索引

Pandas数据组合。

2024-04-23 17:16:09 794

原创 跳跃游戏精细化版

关键在于每一步都尽可能地更新,从而确保我们不会错过任何可能到达数组的末尾路径。O(n),代码遍历了数组nums一次,没有嵌套循环或其他会增加时间复杂度的操作。因此,时间复杂度是O(n),其中n是数组nums的长度。O(1),代码中只使用了几个变量(max_distance和i,jump)来追踪当前能够到达的最远位置,当前下标,当前位置的值。这些变量不随数组nums的大小变化而增加,因此空间复杂度是O(1)。

2024-04-20 22:45:05 632

原创 python中数据分析开源库有哪些?

概述:Matplotilib的改良版,集成了pandas数据结构,通过更简洁API来绘制更加丰富,具有吸引力的图像。建议:在面向数据集API,与padans配合使用,比Matplotlib更方便。conda install 包名字 pip install 包名字。可高效完成数据分析相关全部工作。概述:使用最多的图形绘图库,可以创建静态,动态和交互式图表。作用:用于数据挖掘和数据分析,同时也提供数据清晰功能。建立在NumPy,SciPy和Matplotlib上。可创建和共享代码、公式、可视化图表、笔记文档。

2024-04-19 07:50:22 354

原创 MySQL中统计各科成绩各分数段人数:课程编号,课程名称,[100-85],[85-70],[70-60],[60-0] 及所占百分比,运用2种实现方法

计算百分比,通过round,将小数点保留1位 方法1。# 计算百分比,通过round ,将小数点保留1位,方法2。# 用到了2张表,一张成绩表,一张成绩表。# 计算各分数段人数 方法1。# 计算各分数段人数 方法2。

2024-04-18 21:03:55 635

原创 MySQL34题附答案

- 需求7: 提供订单编号为10248的相关信息,包括product name, unit price (在 order_items 表中), quantity(数量),company_name(供应商公司名字 ,起别名 supplier_name).-- 需求3: 查询每一个商品的product_name, category_name, quantity_per_unit, unit_price, units_in_stock 并且通过 unit_price 字段排序。

2024-04-18 16:39:37 952

原创 通过python,实现跳跃游戏,涉及贪心算法

print(Solution().canJump(list_nums)) # 无法从位置0跳到位置3,因为nums[0] = 3,加上当前位置0,并不能到达末尾,因此返回False。# 例如,给定数组[2,3,1,1,4],表示从起点出发,可以跳跃2步,跳到位置3,然后跳1步,跳到位置4,跳4步到达末尾。# 对于数组[3, 3, 1, 1, 4],从位置0出发,可以跳到位置3,然后跳1步,跳到位置4,跳4步到达末尾。# 1. 遍历数组,对于每个位置,判断能否到达,如果能到达,则更新最远能到达位置。

2024-04-18 16:33:05 282 1

原创 通过python,实现二叉树广度和深度设计

判断左子树是否为空,若不为空,则添加到队列中。# 判断右子树是否为空,若不为空,则添加队列中。return # 根节点已存在,不再添加。# 循环判断,哪个节点为空,将新节点加入该节点。# 判断根节点是否为空,若为空,则返回。# 遍历二叉树,深度优先,先序遍历 (根左右)# 遍历二叉树,深度优先,后序遍历 (左右根)# 判断该节点右子树是否为空。# 判断根节点是否为空,不为空则执行。# 判断根节点是否为空,不为空则执行。# 判断根节点是否为空,不为空则执行。# 判断该节点左子树是否为空。

2024-04-11 19:03:41 509 1

原创 使用单链表方式,实现增删查改等操作

使用单链表方式,在python中实现增删查改

2024-04-11 11:38:46 320

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除