机器学习
文章平均质量分 93
daisyyyyyyyy
这个作者很懒,什么都没留下…
展开
-
关联规则
1.概念1.1 引论关联规则(AssociationRules)是无监督的机器学习方法,用于知识发现,而非预测。关联规则的学习器(learner)无需事先对训练数据进行打标签,因为无监督学习没有训练这个步骤。缺点是很难对关联规则学习器进行模型评估,一般都可以通过肉眼观测结果是否合理。 关联规则主要用来发现Pattern,最经典的应用是购物篮分析,当然其他类似于购物篮交易数据的案例也可以应用关联规则...转载 2018-04-18 09:40:56 · 7335 阅读 · 0 评论 -
K-Means聚类算法的研究与改进
代码:https://github.com/dengsiying/K-Means-improvement.gitK-Means聚类算法的研究与改进*1(华中师范大学 计算机学院,湖北武汉430079)摘 要:K-Means算法是基于划分的聚类算法中的一个典型算法,该算法有操作简单、采用误差平方和准则函数、对大数据集的处理上有较高的伸缩性和可压缩性的优点.但是该算法还存在着一些随机初始聚类中心......原创 2018-04-24 13:02:21 · 37143 阅读 · 8 评论 -
基于随机森林算法的贷款违约预测模型研究(Give me some credit)
本文实验代码github:https://github.com/dengsiying/give-me-some-credit/tree/master参考链接:从决策树到随机森林 http://www.cnblogs.com/maybe2030/p/4585705.html 基于随机森林算法的贷款违约预测模型研究 摘要:如何在发放贷款前有效的评价和识别...原创 2018-06-19 14:55:05 · 25578 阅读 · 8 评论 -
Loss优化方法:SGD,Momentum,AdaGrad,RMSProp,Adam
1. SGDBatch Gradient Descent在每一轮的训练过程中,Batch Gradient Descent算法用整个训练集的数据计算cost fuction的梯度,并用该梯度对模型参数进行更新:Θ=Θ−α⋅▽ΘJ(Θ)Θ=Θ−α⋅▽ΘJ(Θ)优点:cost fuction若为凸函数,能够保证收敛到全局最优值;若为非凸函数,能够收敛到局部最优值缺点:由于每轮迭代都需要在整个数据集上计...转载 2018-07-05 14:51:35 · 1604 阅读 · 0 评论 -
python数据分析与挖掘实战-第六章拓展偷漏税用户识别
第六章分别使用了LM神经网络和CART 决策树构建了电力窃漏电用户自动识别模型,章末提出了拓展思考--偷漏税用户识别。第六章及拓展思考完整代码https://github.com/dengsiying/Electric_leakage_users_automatic_identify.git项目要求:汽车销售行业在税收上存在多种偷漏税情况导致政府损失大量税收。汽车销售企业的部分经营指标能在一定程度...原创 2018-03-29 16:12:04 · 3022 阅读 · 0 评论 -
随机森林和GBDT的区别
一,随机森林随机森林是一个用随机方式建立的,包含多个决策树的集成分类器。其输出的类别由各个树投票而定(如果是回归树则取平均)。假设样本总数为n,每个样本的特征数为a,则随机森林的生成过程如下:从原始样本中采用有放回抽样的方法选取n个样本; 对n个样本选取a个特征中的随机k个,用建立决策树的方法获得最佳分割点; 重复m次,获得m个决策树; 对输入样例进行预测时,每个子树都产生一个结果,...转载 2018-08-06 19:52:25 · 421 阅读 · 0 评论 -
处理非平衡数据集——SMOTE算法
SMOTE全称是Synthetic Minority Oversampling Technique即合成少数类过采样技术,它是基于随机过采样算法的一种改进方案,由于随机过采样采取简单复制样本的策略来增加少数类样本,这样容易产生模型过拟合的问题,即使得模型学习到的信息过于特别(Specific)而不够泛化(General),SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本...转载 2018-08-06 20:12:19 · 2730 阅读 · 0 评论 -
机器学习算法——评价指标汇总
准确率,精确率,召回率和F1准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-MeasureROC-AUCROC曲线需要提前说明的是,我们这里只讨论二值分类器。对于分类器,或者说分类算法,评价指标主要有precision,recall,F-score,以及我们今天要讨论的ROC和AUC。下图是一个ROC曲线的示例。ROC更好的参考正如我们...转载 2018-08-13 17:48:05 · 7176 阅读 · 1 评论 -
鞍点
长期以来,人们普遍认为,神经网络优化问题困难是因为较大的神经网络中包含很多局部极小值(local minima),使得算法容易陷入到其中某些点。到2014年,一篇论文《Identifying and attacking the saddle point problem in high-dimensional non-convex optimization》,提出高维非凸优化问题之所以困难,是因为存...转载 2018-09-13 16:11:04 · 6720 阅读 · 0 评论