数据挖掘
文章平均质量分 67
leo鱼
这个作者很懒,什么都没留下…
展开
-
svm 的R实现
1.数据准备本地文件格式:hour15, hour15diff, hour17, hour17diff, addrate, lastflag, res23.7475, -9.3125, 30.5800, -12.7600, -3.4475, 0, 0 24.6150, -10.3050, 31.7625, -13.5175, -3.2125000000000004, 0, 0原创 2015-08-18 10:59:47 · 1607 阅读 · 0 评论 -
随机森林
随机森林是一个包含多个决策树的分类器,他的类别由其包含的树输出的类别的众数而定。随机森林的基本原理如下:1.循环t次随机的有放回的选取N个样本形成t个训练集2.对这t个训练集选取m个特征(小于总特征数)建立多个决策树(完全生长,不剪枝)3.选取结果多的类别作为最终分类结果原创 2015-11-17 11:29:11 · 2652 阅读 · 1 评论 -
逻辑回归key points
1.逻辑回归LR的特征为什么要先离散化转自:http://m.blog.csdn.net/article/details?id=39478033在工业界,很少直接将连续值作为特征喂给逻辑回归模型,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易scalable(扩展)。2. 离散转载 2016-09-21 17:22:44 · 843 阅读 · 1 评论 -
GBDT
GBDT资料:http://suanfazu.com/t/gbdt-die-dai-jue-ce-shu-ru-men-jiao-cheng/135http://suanfazu.com/t/gbdt-mart-gai-nian-jian-jie/133GBDT vs xgboost:作者:wxquare链接:https://www.zhihu.com/qu转载 2016-09-01 15:26:59 · 811 阅读 · 0 评论 -
xgboost参数调整
转自:https://www.analyticsvidhya.com/blog/2016/03/complete-guide-parameter-tuning-xgboost-with-codes-python/IntroductionIf things don’t go your way in predictive modeling, use XGboost. XGBo转载 2016-08-04 10:22:59 · 12973 阅读 · 0 评论 -
朴素贝叶斯分类
贝叶斯公式推导基本的贝叶斯公式由来一般形式把全概率公式: 代入到基本的形式中既可以得到。贝叶斯公式的应用分本分类中的应用拉普拉斯平滑TFIDF贝叶斯分类的局限性贝叶斯公式的额外思考原创 2016-07-19 17:44:29 · 838 阅读 · 1 评论 -
样本不均衡问题--bagging方法
bagging是一种用来提高学习算法准确度的方法,这种方法通过构造一个预测函数系列,然后以一定的方式将它们组合成一个预测函数。它使用bootstrap抽样,其基本思想是:将一个弱学习算法使用多次(每次使用一个放回的重复抽样),并对结果进行投票,最后选取投票多的结果作为最终的结果(也可以通过得票的平均值用于连续值的预测)。bagging对使用的分类算法有要求,必须为不稳定的算法(不稳定是原创 2016-04-07 17:54:29 · 5170 阅读 · 0 评论 -
决策树
决策树算法比较 ID3C4.5CART(分类)CART(回归)树类型多叉树多叉树二叉树二叉树特征选择信息增益(熵)信息增益率(熵)基尼系数平方误差最小损失函数Ca(T)=C(T)+a|T|原创 2015-11-05 19:23:38 · 2716 阅读 · 0 评论 -
BP神经网络的网络带宽预测
网络流量预测的背景网络流量为指定时间内通过网络或网络端口的数据大小,各个网络节点都是有瓶颈的,当流量达到或超过节点的瓶颈时,网络服务已经收到了不同程度的影响。建立网络流量模型,通过模型预测将来可能超过瓶颈的的时间和可能性,便可以预先采取一定的防护措施,如大节点的流量切换;另外由于各个节点的计费方式和价格也不同,我们可以依据预测的流量在不影响用户体验的情况下把代价高的流量切换到代价低的节点上原创 2016-04-22 16:26:15 · 3980 阅读 · 1 评论 -
PCA数学原理
PCA的数学原理作者 张洋 | 发布于 2013-06-22机器学习 线性代数 PCAPCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章转载 2016-04-21 14:54:11 · 280 阅读 · 0 评论 -
数据挖掘知识梳理脑图
原创 2016-04-11 19:13:05 · 1195 阅读 · 0 评论 -
样本不均衡问题--过拟合欠拟合抽样
过抽样就是在样本很少的时候,添加或者复制样本,比如两类样本分别为100个A类和10个B类,那么为了保证A,B这两类样本平衡,可以复制B类使得样本和A类一样。方便分类器分类。欠抽样就是将A的样本减少到和B类一样。从表面上看过抽样和欠抽样技术在功能上似乎是等价的,因为他们都能改变原始数据集的样本容量并且能够获得一个相同比例的平衡(处理样本不均衡问题的方法)。但是,这个共同点是表面现象,这两种方原创 2016-04-07 14:54:41 · 3527 阅读 · 0 评论 -
R语言数据挖掘包
与数据挖掘有关或者有帮助的R包和函数的集合。1、聚类常用的包: fpc,cluster,pvclust,mclust基于划分的方法: kmeans, pam, pamk, clara基于层次的方法: hclust, pvclust, agnes, diana基于模型的方法: mclust基于密度的方法: dbscan基于画图的方法: plotcluster, plot.转载 2016-02-01 14:09:43 · 1617 阅读 · 0 评论 -
灰色预测模型
概念:白色系统:系统的内部特征是完全已知的,即系统的信息是完全充分的。黑色系统:一个系统的内部信息对外界来说是一无所知的,只能通过他与外界的联系来加以观测研究。灰色系统:一部分信息是已知的,另一部分信息是未知的,系统内各因素之间具有不确定关系。其特点是‘少数据建模’,着重研究‘外延明确,内涵不明确’的对象。灰色预测法:灰色预测法是一种对含有不确定因素的系统进行预测的方法 。它通过鉴原创 2016-01-28 16:07:25 · 23590 阅读 · 0 评论 -
AdaBoost
提升方法的思路:对于一个复杂的任务来说,将多个专家的判断进行综合所得出的判断,要比任何一个专家的单独判断好。在概率近似正确(probably approximately correct,PAC)学习的框架中,一个概念,如果存在一个多项式的学习方法能够学习它,并且正确率很高,那么称这个概念是可强可学习的。一个概念,如果存在一个多项式的学习算法能够学习它,并且学习的正确率仅比随机随机猜想略原创 2015-11-17 16:00:05 · 1946 阅读 · 0 评论 -
曲线平滑方法
一次指数平滑公式:s[i] = alpha*x[i] +(1-alpha)*s[i-1]分析:alpha月接近1,平滑后的数据月接近当前时间的数据值,这种情况下数据越不平滑;当alpha越接近0,平滑后的数据s[i] 越接近前i-1个数据的平滑值,数据越平滑。alpha取值标准:偏差平方的均值(MSE)最小,即各期实际值x[i]与平滑数据s[i]的差的平方和除以总数据数目最小。适用原创 2015-11-06 17:38:25 · 15112 阅读 · 0 评论 -
马儿科夫预测法
一、马尔科夫链 马尔科夫链是一种随机事件序列,它将来取什么值只与它现在的取值有关,与它过去的取值无关,既无后效性(转移概率是不变的)。具备这个性质的离散性的随机过程被称为马儿科夫链。而马尔科夫预测法是应用马尔科夫链的理论和方法分析有关现象的现状和变化规律,并依据这些来预测未来状况的预测方法。二、预测的一般步骤 使用马儿科夫模型来进行预测,一般是根原创 2015-11-06 16:09:39 · 5015 阅读 · 0 评论 -
xgboost on yarn and xgboost4j-spark部署
参考:http://blog.csdn.net/u010306433/article/details/51403894 注意点:1.各个软件的版本(gcc/cmake)2.选择相同版本hadoop源码,且libhdfs 要自己编译,参数加上 cmake -DGENERATED_JAVAH=/opt/jdk1.8.0_60 -DJAVA_HOME=/opt/jdk1.8.0_60...原创 2017-11-16 17:29:16 · 5092 阅读 · 2 评论