MACHINE LEARNING
文章平均质量分 75
ASKED_2019
这个作者很懒,什么都没留下…
展开
-
无监督距离评估
CH指标通过计算类中各点与类中心的距离平方和来度量类内的紧密度,通过计算各类中心点与数据集中心点距离平方和来度量数据集的分离度,CH指标由分离度与紧密度的比值得到。从而,CH越大代表着类自身越紧密,类与类之间越分散,即更优的聚类结果。故名思义,这个方法是衡量不同类和同一类的距离,越大表示同一类越紧密,不同类间距离越大,聚类效果越好。卡方检验的前置表,计算标签和特征的统计量,可以看到不同特征值聚类后的分布情况,人工评估。与前两个一致,也是一个分离度/聚集度评价指标,与之前不一样的是这个指标越小越好。原创 2022-08-25 15:01:33 · 543 阅读 · 0 评论 -
Target Encoding-类别特征编码
类别特征编码为什么要做类别特征编码类别编码的原因主要是计算机处理不了非数值形式的特征,常见的类别特征编码主要有两种,LabelEncoder和OneHotEncoderLabelEncoder因为是按照一定顺序进行的数字编码:一方面,顺序的数字增加其实对结果拟合而言是缺乏目的性和逻辑性的,另一方面对线性模型而言,还会引入一些本不该存在的偏置(例如某两个类别本来是没有区别的,但是LabelEncoder却有可能会把两个类别编码为0和2);OneHotEncoder可以避免偏置,但是OneHot原创 2022-08-05 15:36:29 · 1506 阅读 · 0 评论 -
optuna调参神器学习笔记(二)
手动添加先验参数optuna提供自动参数搜索,但有时候有一些特定的超参数集要先尝试, 比如初始学习率和叶子数量. 另外, 也有可能在让 Optuna 找到更好的超参数集之前,你已经尝试过一些集合.Optuna 提供 两个API 以应对这种场景:将这些超参数集合传递过去并让 Optuna 对其求值 enqueue_trial()将这些集合的结果标记为已完成的 Trials add_trial()第一个场景: 让 Optuna 对你的超参数求值有一些备选值使用Optuna 有一个 API opt原创 2022-03-04 12:07:14 · 1897 阅读 · 0 评论 -
调参神器optuna学习笔记
介绍optuna作为调参工具适合绝大多数的机器学习框架,sklearn,xgb,lgb,pytorch等。主要的调参原理如下:1 采样算法利用 suggested 参数值和评估的目标值的记录,采样器基本上不断缩小搜索空间,直到找到一个最佳的搜索空间,其产生的参数会带来 更好的目标函数值。optuna.samplers.TPESampler 实现的 Tree-structured Parzen Estimator 算法optuna.samplers.CmaEsSampler 实现的 CMA-原创 2022-03-04 11:18:04 · 7645 阅读 · 4 评论 -
xgboost和随机森林特征重要性计算方法
随机森林中特征重要性和xgboost不同:随机森林中的特征重要性主要是基于不纯度(也可以叫做Gini importance):对于分类问题的话,就是gini不纯度对于回归问题的话,MSE(Mean Square error)或者MAE(Mean absolute error)sklearn中的解释sklearn源码...原创 2021-02-19 19:00:14 · 3491 阅读 · 0 评论 -
逻辑回归预测鸢尾花
## 基于鸢尾花lr分类import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsfrom sklearn.datasets import load_irisiris = load_iris()iris_target = iris.targetiris_data = pd.DataFrame(iris.data,columns=iris.feature_names)i原创 2021-02-15 00:24:46 · 782 阅读 · 0 评论