自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 支持向量机SVM

在很久很久以前的情人节,大侠要去救他的爱人,但魔鬼和他玩了一个游戏魔鬼早桌子上似乎有规律放了两种颜色的球,说:"你用一根棍分开它们.要求:尽量在放更多球之后,仍然使用."让我们引入一个函数f(x),图像如下图所示.将x的每个值映射到其对应的输出.使得所有蓝点在Y轴的输出更大,而红点在Y轴的输出偏小.此时,我们可以使用一条水平线将数据完美分类。此时,求解当a是什么值时,该值会变得很大,当求出a值,在求解w,b值.此时,就变成了极大极小值问题。

2024-05-18 18:30:04 1227 1

原创 机器学习------聚类

在聚类算法中根据样本之间的相似性,将样本互粉到不同的类别中,对于不同的相似计算方法,会得到不同的聚类结果,常用的相似度计算方法有欧式距离法。用户画像,广告推荐,Data Segmentation,搜索引擎的流量推荐,恶意流量识别。2.计算每一个样本i到最近簇j内的所有样本的平均距离bij,该值越大,说明该样本越不属于其他簇j。1.计算每一个样本 i 到同簇内其他样本的平均距离ai, 该值越小,说明簇内的相似程度越大。整形,缺省值=8,生成的聚类数,即产生的质心(centroids)数。

2024-05-17 18:21:44 689 2

原创 特征降维~

在数据集中,删除方差低于 threshold 的特征将被删除,默认值是保留所有非零方差特征,即删除所有样本中具有相同值的特征。PCA 通过对数据维数进行压缩,尽可能降低原数据的维数(复杂度),损失少量信息,在此过程中可能会舍弃原有数据、创造新的变量。如果训练数据中包含一些不重要的特征,可能导致模型的泛化性能不佳。2. 我们希望特征独立存在,对预测产生影响,具有相关性的特征可能并不会给模型带来更多的信息,但是并不是说相关性完全无用。低方差过滤法 指的是删除方差低于某些阈值的一些特征。主成分分析(PCA)

2024-05-16 17:06:18 470

原创 朴素贝叶斯

联合概率:表示多个条件同时成立的概率,P(AB) = P(A) P(B|A)条件概率:表示事件A在另外一个事件B已经发生条件下的发生概率,P(A|B)联合概率:多个事件同时发生的概率是多少,表示为:P(AB) = P(B)*P(A|B)条件概率:在去掉部分样本的情况下,计算某些样本的出现的概率,表示为:P(B|A)特征条件独立性假设: P(AB) = P(A)P(B)1. P(C) 表示 C 出现的概率。2. P(W|C) 表示 C 条件 W 出现的概率。3. P(W) 表示 W 出现的概率。

2024-05-16 17:05:37 463

原创 机器学习-----集成学习

Adaptive Boosting(自适应提升)基于Boosting思想实现的一种集成学习算法核心思想是通过逐步提高那些被钱一步分类错误的样本的权重来训练一个强分类器.弱分类器的性能比随机猜测强就行,即可构造出一个非常准确的强分类器.其特点是:训练时,样本具有权重,并且在训练过程中动态调整.被分错的样本的样本会加大权重,算法更加关注难分的样本。这种方法训练得到的模型复杂度较高,很容易出现过拟合。1.对特征值x进行排序.确定分裂点为:0.5,1.5,2.5,3.5,4.5,5.5,6.5,7.5,8.,5。

2024-05-15 20:55:05 895

原创 决策树(详细)

根据信息增益选择特征方式是: 对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,并选择薪资增益最大的特征进行划分.表示由于特征A而使得对数据D的分类不确定性减少的程度。决策树是一种树形结构,树种每个内部节点表示一个特征上的判断,每个分支代表一个判断结果的输出,每个叶子节点代表一种分类结果。特征的信息增益 ÷ 特征的存在信息。信息增益率 = 信息增益 / 特征熵。3.使用该特征(信息增益最大的特征)作为决策树的一个节点。由于特征A而使得对数据D的分类不确定性减少的程度。[知道]c4.5树构建说明。

2024-05-13 15:29:02 734 1

原创 逻辑回归(详细)

设模型中含有待估参数w,可以取很多值.已经知道了样本观测值,从w的一切可能值中(选出一个使该观察值出现的概率为最大的值,作为w参数的估计值,这就是极大似然估计.(顾名思义:就是看上去那个是最大可能的意思)精确率也叫做查准率,指的是对正例样本的预测准确率。3. 真实值是 假例 的样本中,被分类为 正例 的样本数量有多少,这部分样本叫做伪正例(FP,False Positive)1. 真实值是 正例 的样本中,被分类为 正例 的样本数量有多少,这部分样本叫做真正例(TP,True Positive)

2024-05-11 20:23:12 1013 1

原创 线性回归(详细)

当函数 y=f(x)的自变量x在一点 X上产生一个增量Δx时,函数输出值的增量Ay与自变量增量Ax的比值在Ax趋于0时的极限A如果存在,A即为在X处的导数,记作f'(Xo)过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在测试数据集上却不能很好地拟合数据(体现在准确率下降),此时认为这个假设出现了过拟合的现象,(模型过于复杂)在学子的时候,数据提供的特征有些影响模型复杂度或者这个特征的数据点异常较多,所以算法在学习的时候尽量减小这个特征的影响(甚至删除某个特征的影响),这就是正则化。

2024-05-10 15:46:03 911

原创 线性回归~

线性回归是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。因为求解的w,都是w的零次幂(常数项)所以叫成线性模型。为简化计算,先固定截距b,x=0时, b可设置成一个负值,b固定成-100。* 引入损失函数(衡量预测值和真实值效果)Loos(k,b)* 通过一个优化方法,求损失函数最小值, 得到k最优解。2 在线性回归中,从数据中获取的规律其实就是学习权重系数w。损失函数就是关于k, b的函数,展开会变成二元二次方程。[知道]线性回归分类。

2024-05-08 13:41:22 409

原创 超参数选择的方法

只需要将若干参数传递给网格搜索对象,它自动帮我们完成不同超参数的组合,模型训练,模型评估,最终返回一组最优的超参数.交叉验证是一种数据集的分割方法,将训练集划分为n分,其中一份做验证集,其他n-1份做训练集。param_grid: 估计器参数(dict){"n_neighbors":[1,3,5]}5.若k=5模型得分最好, 在使用全部训练集(训练集+验证集)对k=5模型做评估。模型有很多超参数,其能力也存在很大的差异.需要动手产生很多超参数组合,来训练模型。两个组合再一起形成一个模型参数调优的解决方案。

2024-05-06 18:30:37 583 1

原创 KNN算法

闵可夫斯基距离 minKowski Distance 闵式距离, 不是一种新的距离的度量方法 .而是距离的组合 是对多个距离度量公式的概括性的表述。两个n维变量a(x11,x12,...,x1n)与b(x21,x22,...,x2n)间的民可夫斯基距离定义为。n维空间点a(x11,x12,...,x1n)与b(x21,x22,x2n)的切比雪夫距离。n维空间点a(x11,x12,...,x1n)与b(x21,x22,x2n)的曼哈顿距离。k值过小: 相当于较小领域中的训练实例进行预测容易受到异常点的影响。

2024-05-05 20:19:25 1171

原创 机械学习概述

1956年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着“人工智能”这门新兴学科的正式诞生。定义:输入数据没有被标记,即样本数据类别未知,没有标签,根据样本间的相似性,对样本集聚类,以发现食物内部 结构即相互关系。定义: 输入数据是由输入特征和目标值所组成,即输入的训练数据有标签的。奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取。

2024-05-04 21:13:09 595

原创 Pandas绘图

Seaborn是基于matplotlib的图形 可视化包.他提供了一种高度交互界面,便于用户能够做出各种有吸引力的统计图表Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能够做出更具有吸引力的图,而使用matplotlib就能制造更多特色的图Seaborn和Panda的API配合的很好,使用DataFrame/Series的数据可以绘图。

2024-04-28 20:59:32 587

原创 分组操作相关

在pandas中也有groupby函数, 分组之后,每组都会有至少1条数据, 将这些数据进一步处理,transform 需要把DataFrame中的值传递给一个函数, 而后由该函数"转换"数据。返回单个值的过程就是聚合,比如分组之后计算算术平均值, 或者分组之后计算频数,都属于聚合。调用filter 方法,传入一个返回布尔值的函数,返回False的数据会被过滤掉。在SQL中我们经常使用 GROUP BY 将某个字段,按不同的取值进行分组,使用groupby方法还可以过滤数据。

2024-04-25 21:29:41 190 1

原创 Pandas数据结构介绍

可以把DataFrame看作由Series对象组成的字典,其中key是列名,值是Series。Series和Python中的列表非常相似,但是它的每个元素的数据类型必须相同。

2024-04-21 19:42:37 197

原创 Numpy的内置函数

np.cumsum(), np.cumprod():返回一个一维数组,每个元素都是之前所有元素的 累加和 和 累乘积,参数是 number 或 array。np.max(), np.min():所有元素的最大值,所有元素的最小值,参数是 number 或 array。np.mean(), np.sum():所有元素的平均值,所有元素的和,参数是 number 或 array。np.std(), np.var():所有元素的标准差,所有元素的方差,参数是 number 或 array。

2024-04-19 20:02:59 177

原创 case...when语法:

when 表达式1 then 值1。when 表达式2 then 值2。when 表达式3 then 值3。when 结果1 then 值1。when 结果2 then 值2。when 结果3 then 值3。

2024-04-18 17:58:33 160 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除