算法总结
文章平均质量分 80
归去来?
这个作者很懒,什么都没留下…
展开
-
kmeans聚类算法提高聚类性能的方法
1、评估最佳k值 计算每个点到簇质心的距离平方值,评价聚类质量。2、导致聚类效果较差的原因有 收敛到了局部最小值,而非全局最小值,也就是还需要继续收敛;3、用误差平方和SSE来度量聚类效果。 即程序中clusterAssment矩阵的第一列之和,SSE越小表示数据点越接近它们的质心,聚类效果也越好。4、一种可以肯定降低SSE的方法是增加簇的个数,但违背了聚类的目标,聚类的目标是在保持簇数目不变的情况下提高簇的质量。5、对生成的簇进行后处理,一种方法是将具有...原创 2020-08-27 16:44:54 · 2684 阅读 · 0 评论 -
SVM学习总结
http://blog.csdn.net/csqazwsxedc/article/details/52230092使用SVM需安装e1071包第一种简单方式建模:svm(formula, data= NULL, subset, na.action = na.omit , scale= TRUE) formula:函数模型的形式data:模型中包含的有变量的一组可选格式数据。...原创 2018-10-24 11:01:44 · 359 阅读 · 0 评论 -
xgboost学习总结
特征处理: 缺失值处理: 哑变量处理: 附:需要处理哑变量的算法有,knn、glmnet、svm、xgboost;不需处理为哑变量的算法有,logistic regression、raprt、GBM、randomforest 一、模型参数: 在训练过程中主要用到两个方法:xgboost.train()和xgbo...原创 2018-10-24 10:45:53 · 936 阅读 · 0 评论 -
分类和聚类的区别
机器学习中分类与聚类的本质区别机器学习中有两类的大问题,一个是分类,一个是聚类。在我们的生活中,我们常常没有过多的去区分这两个概念,觉得聚类就是分类,分类也差不多就是聚类,下面,我们就具体来研究下分类与聚类之间在数据挖掘中本质的区别。分类分类有如下几种说法,但表达的意思是相同的。分类(classification):分类任务就是通过学习得到一个目标函数f,把每个属性集x映射到一个...原创 2018-10-18 10:56:08 · 21903 阅读 · 0 评论 -
机器学习常用算法及对比
随机森林(Random Forest): 随机森林是一个最近比较火的算法,它有很多的优点: 在数据集上表现良好 在当前的很多数据集上,相对其他算法有着很大的优势 它能够处理很高维度(feature很多)的数据,并且不用做特征选择 在训练完后,它能够给出哪些feature比较重要 在创建随机森林的时候,对generlization erro...原创 2018-10-18 10:53:00 · 583 阅读 · 0 评论 -
机器学习基础概念
1. 基础概念(1) 10折交叉验证(10-fold cross-validation)用来测试算法的准确性。常用的测试方法。将数据集分成10份。轮流将其中的9份作为训练数据集,1份作为测试数据,进行试验,每次试验都会得到相应的正确率(或差错率)。10次结果的正确率(或差错率)的平均值作为对算法精度的估计,一般还需要进行多次10折交叉验证,再求平均值,对算法的准确性进行估计。(2)P...原创 2018-10-18 10:48:07 · 258 阅读 · 0 评论 -
机器学习BOOST总结
XGBOOST算法基础其核心规则是回归树,与决策树类似,区别在于回归树预测实数值,决策树是类标签,也就是回归树的每一个叶节点是实数,最终结果是实数的累加,如果分到叶子结点的训练样本预测值不唯一的时候,以所有样本预测值的均值作为叶子结点输出的预测值。回归树解决分类问题时,也是基于回归树,而不是决策树。在回归树(base learner)的基础上,通过数增强(Tree Ensemble)的...原创 2018-10-18 10:43:28 · 3101 阅读 · 0 评论 -
支持向量机SVM总结
支持向量机SVM(Support Vector Machine)概念介绍一个有监督的学习模型,通常用来进行模式识别、分类、回归分析等。SVM在很多诸如文本分类,图像分类,生物序列分析和生物数据挖掘,手写字符识别等领域有很多的应用。通俗来说,它是一种二类分类模型,其基本模型定义为特征空间上的间隔最大的线性分类器,其学习策略是间隔最大化,最终可以转化为一个凸二次规划问题的求解。分类...原创 2018-10-18 10:41:59 · 3604 阅读 · 0 评论 -
时间序列预测算法总结
时间序列算法time series data mining 主要包括decompose(分析数据的各个成分,例如趋势,周期性),prediction(预测未来的值),classification(对有序数据序列的feature提取与分类),clustering(相似数列聚类)等。时间序列的预测常用的思路:1、计算平均值2、exponential smoothing指数衰减...原创 2018-10-18 10:30:48 · 80962 阅读 · 5 评论