西瓜书
上进的菜鸟
这个作者很懒,什么都没留下…
展开
-
从组合中估计概率
一些分类算法缺乏输出结果为概率的能力,比如rf这个时候使用calibratedclassifiercv,它使用2种方法将分类结果转化为概率第一种:platte的归类方法第二种:isotonic回归import pandas as pdimport matplotlib.pyplot as pltfrom sklearn.calibration import Calibrate...原创 2019-09-23 21:48:14 · 474 阅读 · 0 评论 -
特征工程之数据预处理
原创 2018-09-12 11:14:26 · 288 阅读 · 0 评论 -
典型相关分析CCA
原创 2018-09-12 11:12:37 · 1676 阅读 · 0 评论 -
SVD
原创 2018-09-12 11:10:45 · 93 阅读 · 0 评论 -
softmax回归(多分类问题)
原创 2018-09-12 11:08:26 · 959 阅读 · 0 评论 -
降维之LDA
原创 2018-09-04 15:59:08 · 997 阅读 · 0 评论 -
降维之PCA
写在前面原创 2018-09-04 15:57:08 · 149 阅读 · 0 评论 -
降维之度量学习
原创 2018-09-04 15:53:53 · 182 阅读 · 0 评论 -
降维之流形学习之LLE
原创 2018-09-04 15:51:50 · 681 阅读 · 0 评论 -
降维之流形学习之ISOMAP(基于MDS)
原创 2018-09-04 15:49:45 · 801 阅读 · 0 评论 -
降维之MDS(多维缩放)
原创 2018-09-04 15:48:24 · 978 阅读 · 0 评论 -
聚类之层次聚类
原创 2018-09-04 15:46:30 · 141 阅读 · 0 评论 -
特征工程之特征表达
原创 2018-09-12 11:16:46 · 139 阅读 · 0 评论 -
特征工程之特征选择之过滤法(卡方检验
原创 2018-09-12 11:18:34 · 2473 阅读 · 0 评论 -
异常检测实战
数据科学导论 python语言实现一、单变量异常检测(一次观测一个变量)1.1 Z-scores 得分绝对值超过3的1.2 箱线图import numpy as npfrom sklearn import preprocessingnormailized_data = preprocessing.StandardScaler().fit_transform(boston...原创 2019-09-23 11:18:57 · 784 阅读 · 0 评论 -
缺失值处理
...转载 2019-03-09 15:38:18 · 3055 阅读 · 0 评论 -
数据不平衡问题
数据不平衡解决之道一、从数据本身出发1.欠采样2.过采样以SMOTE为例子 3.数据增强:加噪音增强模型鲁棒性、对不同性质的数据也可以做不同的augmentation4.改变权重:设定惩罚因子,如libsvm等算法里设置的正负样本的权重项等。惩罚多样本类别,其实还可以加权少样本类别 评价指标详情见:https://blog.csdn.net/...原创 2019-02-26 19:44:23 · 190 阅读 · 0 评论 -
Apriori
支持度太小,即使关联度高,也没有意义原创 2019-02-24 15:06:33 · 733 阅读 · 0 评论 -
EM算法
一个例子: EM算法是迭代求解最大值的算法,同时算法在每一次迭代时分为两步,E步和M步。一轮轮迭代更新隐含数据和模型分布参数,直到收敛,即得到我们需要的模型参数。一个最直观了解EM算法思路的是K-Means算法。在K-Means聚类时,每个聚类簇的质心是隐含数据。我们会假设K个初始化质心,即EM算法的E步;然后计算得到每个样本最近的质心,并把样本聚类到最近的这个质心,即EM...原创 2019-02-27 14:42:03 · 1021 阅读 · 0 评论 -
HMM(note
原创 2018-10-30 21:05:33 · 171 阅读 · 0 评论 -
CRF(note
原创 2018-10-30 20:59:53 · 162 阅读 · 0 评论 -
异常点检测
原创 2018-09-12 11:24:08 · 244 阅读 · 0 评论 -
特征工程之特征选择之嵌入式
原创 2018-09-12 11:22:47 · 1801 阅读 · 0 评论 -
特征工程之特征选择之包装法
原创 2018-09-12 11:19:35 · 2857 阅读 · 2 评论 -
分类之KNN和KD树
原创 2018-09-04 15:43:57 · 231 阅读 · 0 评论 -
聚类之高斯混合聚类GMM(EM)
原创 2018-09-04 15:42:00 · 1788 阅读 · 0 评论 -
聚类之DBSCAN
原创 2018-08-31 11:19:26 · 227 阅读 · 0 评论 -
聚类之LVQ
原创 2018-08-31 11:17:37 · 940 阅读 · 0 评论 -
聚类之K-mens
原创 2018-08-31 11:16:54 · 1512 阅读 · 0 评论 -
聚类之指标和距离
原创 2018-08-31 11:14:51 · 757 阅读 · 0 评论 -
决策树补充+调参
文章来源:统计学习方法 西瓜书https://www.cnblogs.com/pinard/p/6056319.html原创 2018-08-27 09:59:30 · 1438 阅读 · 0 评论 -
SVM调参
转载自:https://www.cnblogs.com/pinard/p/6117515.html转载 2018-08-26 16:50:01 · 1078 阅读 · 0 评论 -
SVM补充之SVR(回归)
原创 2018-08-26 16:40:52 · 1653 阅读 · 1 评论 -
SVM--三种损失函数--smo算法
这里C越大,代表对kesei的惩罚也大,也就是也不放松,不松弛,所以C越大越容易过拟合;C越小越容易欠拟合gamma越大,支持向量越多,gamma值越小,支持向量越少。gamma越小,模型的泛化性变好,但过小,模型实际上会退化为线性模型;gamma越大,理论上SVM可以拟合任何非线性数据...原创 2018-08-26 10:49:23 · 1485 阅读 · 0 评论 -
偏差与方差
原创 2018-08-22 10:55:36 · 210 阅读 · 0 评论 -
模型性能度量(PR,ROC)
(score就是预测样本预测为1的概率值)题外话:是选择ROC还是PR曲线?ROC曲线的优势 ROC曲线有个很好的特性:当测试集中的正负样本的分布变化的时候,ROC曲线能够保持稳定。在实际的数据集中经常会出现类不平衡现象,而且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和Precision-Recall曲线的对比。 其中(a)和(c)为ROC曲线...原创 2018-08-22 10:08:14 · 1838 阅读 · 1 评论 -
线性回归
原创 2018-08-24 11:08:00 · 129 阅读 · 0 评论 -
逻辑回归
原创 2018-08-24 11:09:20 · 109 阅读 · 0 评论 -
ADABOOST、GBDT、RF调参
https://www.cnblogs.com/pinard/p/6136914.html----adaboosthttps://www.cnblogs.com/pinard/p/6143927.html----GBDThttps://www.cnblogs.com/pinard/p/6160412.html----RF转载 2018-08-29 20:21:54 · 1804 阅读 · 0 评论 -
集成学习之Bagging之RF
随机森林变量重要性度量:https://www.jianshu.com/p/51cfcfc5d2b4原创 2018-08-29 20:13:40 · 202 阅读 · 0 评论