![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
HuiFeiDeTuoNiaoGZ
这个作者很懒,什么都没留下…
展开
-
数据挖掘第八次周报
理论学习特征交叉合成特征不在输入特征之列,而是从一个或多个输入特征衍生而来。通过标准化或缩放单独创建的特征不属于合成特征。合成特征包括:将一个特征与其本身或其他特征相乘(称为特征组合或特征交叉);两个特征相除;对连续特征进行分桶,以分为多个区间分箱。特征交叉通过将单独的特征进行组合(相乘或求笛卡尔积)而形成的合成特征。特征组合有助于表示非线性关系。比如这种,线性的学习器怎么划线都不能很好地分割。cross意思是向量积,比如x3=x1x2,之后可以处理这个新建的特征组合y = b + w1x1原创 2020-11-14 20:22:23 · 231 阅读 · 0 评论 -
数据挖掘第七次周报
理论学习赛题背景回顾总结整个比赛的知识,首先是赛题用了AUC作为评价指标,这是一个医学上的指标,通过衡量ROC曲线与坐标轴围成的面积评价模型预测结果,它从对阳性和阴性的预测两方面进行了考虑,在许多情况下更为合理,因为阳性没检测出的后果可能更严重。特征工程在面对真实数据时,常常会遇到难以直接使用的数据,将这些数据正则化并筛选出对分析真正有用的数据很重要,可以说是整个比赛最关键的一环。在粗略了解了数据的规模和大致分布后,先找出数据缺失的值,根据语境进行填补,然后将类别型和离散型数据进行处理,将一些字符原创 2020-11-11 17:36:24 · 113 阅读 · 0 评论 -
数据挖掘第六次周报
理论学习通过融合多个模型,尤其是差别较大的模型,可以提升机器学习的性能,对于天池和kaggle这样的比赛效果会比较好,常见的方法有投票/平均、Stacking、Bagging、Boosting。投票/平均如果有三个独立的模型,每个正确率都是0.7,按照少数服从多数,正确的结果是,三个都模型都判断对,其中两个判断对,那么投票后正确率是,0.70.70.7 + 0.70.70.3*3 > 0.7前提是模型之间相互独立,结果间没有相关性,相近的模型效果会比较差。Bagging这种方法作用于样本原创 2020-11-02 23:03:06 · 197 阅读 · 1 评论 -
数据挖掘第五次周报
理论学习模型评估常见问题,当模型对于训练集表现太好,会出现过拟合的问题,因为训练结果损失了普遍性。因此数据集的划分要满足两个条件:1.训练集和测试集都是从真实样本中独立同分布采样。2.训练集和测试集要互斥。数据集划分的三种方法留出法将数据集D划分为两个互斥的集合,一个作为训练集S,另一个作为测试集T,通常采用分层采样保证数据分布的一致性。交叉验证法k折交叉验证将数据集D分为k份,k-1份作为训练集,一份作为测试集,这样就可以获得k组训练/测试集,可以进行k次训练与测试,最终返回的是k个测原创 2020-10-27 10:46:04 · 158 阅读 · 0 评论 -
数据挖掘第四次周报
理论学习kaggle上也有一个类似的贷款违约比赛,天池这个比赛的论坛上帖子比较少,那上面有个表现很不错的用的是GBM算法,这星期学习一下看看能不能用到比赛里。Adaboost实践原创 2020-10-20 21:01:41 · 156 阅读 · 0 评论 -
数据挖掘第三次周报
理论学习这周重点理解了一下GBDT模型的具体内容,为进一步调参做准备。GBDTGBDT是一个集成模型,其中的基模型就是CRAT回归树,是二分树,每个节点的特征取值为“是”和“不是”,比如ID3中如果天气是一个特征,那么基于此的节点特征取值为“晴天”、“阴天”、“雨天”,而CART树中就是“不是晴天”与“是晴天”。回归树的生成将输入空间R划分成M个单元,每个单元的输出是c帽,I是判别函数。Rm上的最优输出值就是Rm内所有样本对应y的均值。如何对输入空间进行划分呢?和决策树一样,选择的是遍历所原创 2020-10-12 21:08:32 · 153 阅读 · 0 评论 -
数据挖掘第二次周报
理论学习理解ROC这周的比赛中评价中提到了ROC的概念,其实挺有趣。如果按照准确率去评估一个模型,比如有90个阴性和10个阳性,第一个模型认为所有人都是阴性,第二个模型识别出了5个阳性,其他都是阴性,那么他俩的准确率只相差5%,但实际效果相差很多,除此之外,在很多问题中没有识别出阳性和没有识别出阴性的代价也是不同的(比如检测癌症),所以从医疗领域引入了ROC的这个概念。真阳性TP是正确预测为阳性,假阳性FP是错误预测为阳性(实际是阴性),FN是错误预测为阴性(实际为阳),TN是正确预测阴性。ROC原创 2020-10-06 10:28:10 · 206 阅读 · 0 评论 -
数据挖掘周报
理论学习GBDT算法DT是Decision Tree决策树,GB是Gradient Boosting,是一种学习策略,GBDT的含义就是用Gradient Boosting的策略训练出来的DT模型。Tj学习j-1颗4树预测结果的残差,就像做一遍习题册,然后把做错的题目挑出来,在做一次,然后把做错的题目挑出来在做一次,经过反复多轮训练,取得最好的成绩。gbdt 是通过采用加法模型,即基函数的线性组合,以及不断减小训练过程产生的残差来达到将数据分类或者回归的算法。gbdt通过多轮迭代,每轮迭代产生一个原创 2020-09-29 14:04:18 · 241 阅读 · 0 评论