机器学习
文章平均质量分 74
BlackEyes_SY
在不被人注意的角落里起飞
展开
-
为什么梯度的负方向是梯度下降最快的方向
文章目录梯度与导数的关系梯度下降算法梯度方向是上升方向一阶泰勒展开式与负梯度梯度与导数的关系梯度方向指向数值增长最快的方向,大小为变化率。通过这个性质也说明梯度是有方向和大小的矢量。通过梯度的定义我们发现,梯度的求解其实就是求函数偏导的问题,而我们高中所学的导数在非严格意义上来说也就是一元的“偏导”。通过这一点我们自然而然地想到梯度应该是导数向更高维数的推广。换句话说,梯度是矢量,而某点的导数是个常量。梯度下降算法如果函数 f(θ)f(\theta )f(θ)是凸函数,那么就可以使用梯度下降算法进行原创 2020-09-21 21:43:56 · 4477 阅读 · 1 评论 -
回归评价指标(MSE、RMSE、MAE、R-Squared、拟合优度)
文章目录拟合优度拟合优度拟合优度(Goodness of Fit)是指回归直线对观测值的拟合程度。度量拟合优度的统计量是可决系数(Coefficient of Determination)R²。可决系数,亦称测定系数、确定系数、决定系数、可决指数。对于m个样本(x1→,y1),(x2→,y2),⋯ ,(xm→,ym)(\overrightarrow{x_{1}},y_{1}),(\overr...原创 2020-07-23 10:31:33 · 73583 阅读 · 8 评论 -
数据的异常点检测算法
文章目录Isolation ForestNumeric OutlierZ-scoreDBSCAN:基于密度的聚类数据预处理的好坏,很大程度上决定了模型分析结果的好坏。其中,异常值(outliers)检测是整个数据预处理过程中,十分重要的一环,它的存在可能对最终建立的模型的精度和泛化能力有较大的影响。当然检测方法也是多种多样。Isolation Forest孤立森林,独异森林(Isolatio...原创 2020-05-07 18:00:57 · 5526 阅读 · 0 评论 -
常见聚类(K-means、DSCAN)算法及实现
文章目录K-meansK-meansk值如何确定K-mediods(K中心点)算法层次聚类密度聚类DSCAN谱聚类常用的评估方法:轮廓系数(Silhouette)相似度度量及相互系数K-meansK-meansK-means算法优点:1).是解决聚类问题的一种经典算法,原理简单,实现容易。2).当簇接近高斯分布时,它的效果较好。3).与密度聚类中的DSCAN相比,簇与簇之间划分清晰。...原创 2020-05-07 14:25:32 · 3493 阅读 · 0 评论 -
常用的相似度和距离计算方法详解(python版)
目录Jaccard相关系数定义代码余弦相似度皮尔森相关系数欧几里德距离曼哈顿距离汉明距离(Hamming distance)Jaccard相关系数定义Jaccard(X,Y)=X∩YX∪Y Jaccard\left ( X,Y \right )= \frac{X\cap Y}{X\cup Y}Jaccard(X,Y)=X∪YX∩Y注:Jaccard相关系数适合计算离散型集合的相似度,...原创 2020-03-14 23:18:13 · 6242 阅读 · 0 评论 -
KNN K值的选择
文章目录误差KNNK值的选择误差近似误差:可以理解为对现有训练集的训练误差。估计误差:可以理解为对测试集的测试误差。近似误差关注训练集,如果近似误差小了会出现过拟合的现象,对现有的训练集能有很好的预测,但是对未知的测试样本将会出现较大偏差的预测。模型本身不是最接近最佳模型。估计误差关注测试集,估计误差小了说明对未知数据的预测能力好。模型本身最接近最佳模型。KNNk近邻算法是一种基本分...原创 2020-05-03 13:19:32 · 10673 阅读 · 0 评论 -
特征选择(过滤法、包装法、嵌入法)
文章目录Filter过滤式方法方差选择法相关系数法卡方检验互信息法和最大信息系数Mutual information and maximal information coefficient (MIC)Wrapper封装式方法递归特征消除法Recursive feature elimination (RFE)Embedded过滤式方法基于惩罚项的特征选择法L1L_{1}L1正则化LassoL2正则...原创 2020-04-29 20:33:16 · 9676 阅读 · 0 评论 -
Bagging和Boosting(偏差与方差)
文章目录集成学习baggingboosting集成学习baggingboosting原创 2020-04-26 14:52:07 · 2135 阅读 · 0 评论 -
样本不平衡的常用处理方法
文章目录数据不平衡为什么类别不平横会影响模型的输出?如何解决数据不平衡很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长尾现象”,也就是所谓的“二八原理”。不平衡程度相同的问题,解决的难易程度也可能不同,因为问题难易程度还取决于我们所拥有数据有多大。可以把问题根据难度从小到大排...原创 2020-04-20 15:39:28 · 2240 阅读 · 0 评论 -
决策树系列
文章目录决策树过程ID3熵条件熵信息增益C4.5CART(Classification And Regression Tree)决策树的优缺点剪枝随机森林决策树学习采用的是自顶向下的递归方法,其基本思想是以信息熵为度量构造一颗熵值下降最快的树,到叶子节点处,熵值为0。其具有可读性、分类速度快的优点,是一种有监督学习。最早提及决策树思想的是Quinlan在1986年提出的ID3算法和1993年提出...原创 2020-04-18 20:16:59 · 372 阅读 · 1 评论 -
评估方法(交叉验证法、自助法、留出法)
文章目录留出法 hold-out交叉验证法 cross validationk折交叉验证留一法 leave-one-out cross validation自助法 bootstrapping留出法 hold-out留出法直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S,另一部分用作测试集T。通常训练集和测试集的比例为70%:30%。同时,训练集测试集的划分有两个注意事项:尽可能...原创 2020-04-18 18:30:49 · 10211 阅读 · 0 评论 -
多种归一化方法
目录1、(0,1)标准化2、Z-score标准化3、Sigmoid函数在数据挖掘中,当不同的特征列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况,这个时候我们需要做的就是对抽取出来的features vector进行归一化处理,以保证每个特征被分类器平等对待。1、(0,1)标准化xnormalization=x−MinMax−Minx_{norma...原创 2020-03-16 11:33:47 · 1480 阅读 · 0 评论 -
pyspark.ml.feature特征工程常用方法(一)
本篇博文主要是对pyspark.ml.feature模块的函数进行介绍,也可以直接看官网文档。其中博文的数据皆来自官方文档中例子。官方文档地址:http://spark.apache.org/docs/latest/api/python/pyspark.ml.htmlpyspark.ml.feature 函数概括:__all__ = ['Binarizer', 'Bucketizer',...原创 2020-01-01 21:21:48 · 2055 阅读 · 0 评论 -
推荐系统_电影推荐
题目描述:某电影院收集了N个用户对M个电影的观影记录。每个用户一行,第i行的记录形式为:"\t,,....."已知某用户的观影记录为:84,14,90,91,34,76,43,67,36,47,58,24,43找出与该用户最匹配的钱5名用户。N个用户的观影记录:123 44,12124 30,44 125 28,30126 84,14,9,23,33,55127 24,原创 2017-03-17 10:03:12 · 1668 阅读 · 0 评论 -
网易机器学习笔试题
1、常见的生成式模型和判别式模型有哪些? 生成式模型:HMM、朴素贝叶斯 判别式模型:svm、最大熵模型、决策树、神经网络、条件随机场。6、EM算法的基本概念和应用场景?最大期望(EM)算法是在概率(probabilistic)模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐藏变量(Latent Variable)。假设我们估计知道A和B两个参数原创 2017-08-11 09:07:20 · 684 阅读 · 0 评论 -
核函数
核函数目的:把原坐标系里线性不可分的数据用Kernel投影到另一个空间,尽量使得数据在新的空间里线性可分。核函数特点是:1)核函数的引入避免了“维数灾难”,大大减小了计算量。而输入空间的维数n对核函数矩阵无影响,因此,核函数方法可以有效处理高维输入。2)无需知道非线性变换函数Φ的形式和参数.3)核函数的形式和参数的变化会隐式地改变从输入空间到特征空间的映射,原创 2017-08-21 09:52:00 · 1167 阅读 · 0 评论 -
curse of dimension维数灾难
为了获得更精准的分类,可以添加更多特征。也许特征达到一定维度,我们会得到一个堪称完美的分类器?其实不然,因为当特征达到一定维度后,再去增加维度会导致分类器的性能下降,这便是经常提到的“curse of dimension” 在得到一个性能优良的分类器前,增加特征便会有更好的分类效果,但事实却不是这样。其实在增加特征时,样本的密度会呈指数形式下降。假设1维中长度为5个单位,2维中会有25原创 2017-08-20 22:55:23 · 2087 阅读 · 0 评论 -
插值算法分类
可以粗略的将插值算法分为传统插值、 基于边缘的插值和基于区域的插值3类 1.传统差值原理和评价邻插值:优点:较简单,容易实现。缺点:该方法会在新图像中产生明显的锯齿边缘和马赛克现象。双线性插值法:优点:具有平滑功能,能有效地克服邻法的不足。缺点:会退化图像的高频部分,使图像细节变模糊。高阶插值:如双三次和三次样条插值,在放大倍数比较高时,比低阶插值效果好。这些插原创 2017-07-14 17:55:43 · 6827 阅读 · 0 评论 -
线性分类器有三大类
线性分类器有三大类(线性分类器三种最优准则):感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。感知器准则函数:代价函数J=-(W*X+w0),分类的准则是最小化代价函数。感知器是神经网络(NN)的基础,网上有很多介绍。SVM:支持向量机也是很经典的算法,优化目标是最大化间隔(margin),又称最大间隔分类器,是一种典型的线性分类器。(使用核函数可解决非线性问题)...原创 2017-08-09 15:07:33 · 5486 阅读 · 0 评论 -
python图像叠加-拼接
一、图像叠加or图像混合加权函数说明cv2.addWeighted(src1, alpha, src2, beta, gamma[, dst[, dtype]]) → dst参数说明src1 – first input array.alpha – weight of the first array elements.src2 – second input array of the s...原创 2019-03-04 15:21:35 · 3269 阅读 · 0 评论 -
交叉熵
交叉熵理论交叉熵与熵相对,如同协方差与方差。熵考察的是单个的信息(分布)的期望:H(p)=−∑i=1np(xi)logp(xi)交叉熵考察的是两个的信息(分布)的期望: H(p,q)=−∑i=1np(xi)logq(xi)是是是原创 2017-08-08 18:33:43 · 1381 阅读 · 0 评论 -
机器学习过拟合
出现过拟合的原因:a) 在进行数据挖掘或者机器学习模型建立的时候,假设数据满足独立同分布。即当前已产生的数据可以对未来的数据进行推测与模拟,因此都是使用历史数据建立模型。即使用已经产生的数据去训练,然后使用该模型去拟合未来的数据。但是一般独立同分布的假设往往不成立,即数据的分布可能会发生变化。b) 在对模型进行训练时,有可能遇到训练数据不够,即训练数据无法对整个数据原创 2017-03-26 22:29:58 · 840 阅读 · 0 评论 -
逻辑回归和SVM的比较
两种方法都是常见的分类算法,其中心思想都是增加对分类影响较大的数据点的权重,减少与分类关系较小的数据点的权重。SVM的处理方法是只考虑support vectors,也就是和分类最相关的少数点,去学习分类器。而逻辑回归通过非线性映射,大大减小了离分类平面较远的点的权重,相对提升了与分类最相关的数据点的权重。两者的根本目的都是一样的。比较: 0、LR给出了后验概率,SVM只原创 2017-03-06 19:39:30 · 7765 阅读 · 3 评论