![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘笔记
数据探索、特征分析、建模调参、模型融合
浪里个郎aa
这个作者很懒,什么都没留下…
展开
-
精确率、召回率、F1-score、准确率、AUC、ROC曲线?
查准率、查全率又是精确率(precision)、召回率(recall)F1度量,F1-score 越高,说明分类模型越稳健准确率(accuracy) = (TP+TN)/(TP+FN+FP+TN)A把C全部包住,A优于C。与 P-R 曲线使用查准率、查全率为纵、横轴不同, ROC 曲线的纵轴是"真正例率" (True Positive Rate,简称 TPR),横轴是"假正例率" (False Positive Rate,简称 FPR) ,基于表 2.1 中的符号,两者分别定义为:..原创 2020-05-15 18:54:55 · 1026 阅读 · 0 评论 -
支持向量机SVM总结
1 什么是SVM?SVM是Support Vector Machine的简称,它的中文名为支持向量机,属于一种有监督的机器学习算法,可用于离散因变量的分类和连续因变量的预测。通常情况下,该算法相对于其他单一的分类算法(如Logistic回归、决策树、朴素贝叶斯、KNN等)会有更好的预测准确率,主要是因为它可以将低维线性不可分的空间转换为高维的线性可分空间。该算法的思想就是利用某些支持向量所构成...原创 2020-04-09 16:59:50 · 483 阅读 · 0 评论 -
L0,L1,L2范式的区别?岭回归,Lasso回归
范数规则化有两个作用:1)保证模型尽可能的简单,避免过拟合。2)约束模型特性,加入一些先验知识,例如稀疏、低秩等。先讨论几个问题:1)实现参数的稀疏有什么好处吗?一个好处是可以简化模型,避免过拟合。因为一个模型中真正重要的参数可能并不多,如果考虑所有的参数起作用,那么可以对训练数据可以预测的很好,但是对测试数据就只能呵呵了。另一个好处是参数变少可以使整个模型获得更好的可解释性。2)参...原创 2020-04-07 19:58:57 · 1128 阅读 · 0 评论 -
5模型融合(stacking/blending/boosting/bagging)-零基础入门数据挖掘
1 模型融合包含哪些1.1简单加权融合回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean)分类:投票(Voting)综合:排序融合(Rank averaging),log融合1.2 stacking/blending构建多层模型,并利用预测结果再拟合预测1.3 boosting/bagging(在xgboost, Adaboo...原创 2020-04-04 20:55:50 · 745 阅读 · 0 评论 -
一文读懂决策树(ID3,C4.5,CART),随机森林,GBDT,AdaBoost,XGboost,lightGBM,CatGBM
信息熵经验信息熵条件熵信息增益ID3ID3算法使用信息增益指标实现根节点或中间节点的字段选择,那个属性的信息增益大,选择那个属性作为分隔的节点,但是该指标存在一个非常明显的缺点,即信息增益会偏向于取值较多的字段。C4.5算法信息增益率,C4.5使用HA参考就是在信息增益的基础上进行相应的惩罚。其中,HA为事件A的信息熵。事件A的取值越多,GainA(D)可能越大,但同时...原创 2020-04-04 20:53:55 · 1208 阅读 · 0 评论 -
4. 模型构建-零基础入门数据挖掘 - 二手车交易价格预测
1. 统计学习分类1.1 监督学习:利用一组带标签的数据, 学习从输入到输出的映射, 然后将新数据用这种映射关系可以得到映射结果, 达到分类或者回归的目的。线性回归、决策树、SVD等1.2 非监督学习输入数据没有被标记,也没有确定的结果。K-means聚类、层次聚类等1.3 半监督学习在实际情况中,获取的数据大部分都是无标签的,人们企图加入一些人为标注的样本,使得无标签的数据通过训练自...原创 2020-04-01 21:39:47 · 141 阅读 · 0 评论 -
3. 特征工程-零基础入门数据挖掘 - 二手车交易价格预测
1. 常见的特征工程包括:1.1 异常处理:通过箱线图(或 3-Sigma)分析删除异常值;BOX-COX 转换(处理有偏分布);长尾截断;1.2 特征归一化/标准化:标准化(转换为标准正态分布);归一化(抓换到 [0,1] 区间);针对幂律分布,可以采用公式: log(1+x/(1+median))1.3 数据分桶:List item等频分桶;等距分桶;...原创 2020-03-28 18:47:07 · 103 阅读 · 0 评论 -
2.EDA-零基础入门数据挖掘 - 二手车交易价格预测
**赛题链接:**https://tianchi.aliyun.com/competition/entrance/231784/introduction数据读取pd.read_csv('Train_data.csv', sep = ' ') ,sep = ’ '表示内容以空格分隔Train_data.iloc[0:15, 9:20], Train_data.loc[:5, 'name':'b...原创 2020-03-24 20:22:49 · 168 阅读 · 0 评论