sklearn
文章平均质量分 51
小白tree
致力于成为图形学工程师的小白
展开
-
sklearn风格的keras接口KerasClassifier、KerasRegressor
from tensorflow.keras.wrappers.scikit_learn import KerasRegressor, KerasClassifierkeras有这样一个sklearn风格的接口,可以满足sklearn风格的写法。这里仅给出回归示例:def build_regresor_model(lr): """ 构建网络,并编译 """ model = Sequential() model.add(Dense(units=128, activ原创 2022-02-22 17:52:04 · 3677 阅读 · 2 评论 -
ValueError: n_components=50 must be between 0 and min(n_samples, n_features)=20 with svd_solver=‘ful
PCA设置的参数n_components必须 <= min(样本量,特征量).个人从sklearn实现的方式——通过SVD,来理解:m X n的矩阵,秩为min(m,n),最终的奇异值个数也必须<=min(m,n),对应的特征向量维数也要<=min(m,n)参考:Stack Overflow《PCA降维 维度 样本数 feature数》...原创 2022-02-17 20:34:19 · 8546 阅读 · 3 评论 -
关于sklearn决策树和随机森林的predict_proba方法的原理解释
注意,下述例子是针对一条测试样本,predict_proba方法会返回一个shape = (n_Y_test, n_classes)的矩阵,n_Y_test是测试集的样本条数,n_classes是分类数。一、对于决策树比如多分类的例子中,某一个叶子节点,包含的各类样本分别是{‘A’:1, ‘B’:2, ‘C’:7},那么预测的概率predict_proba就分别是{‘A’:0.1, ‘B’:0.2, ‘C’:0.7},如果使用的是predict方法,那就会选择概率最大的即C类。二、对于随机森林随机原创 2021-04-03 15:25:11 · 5052 阅读 · 1 评论 -
sklearn决策树/随机森林多分类绘制ROC和PR曲线
有篇讲解原理的博文/论文(可看可不看):《为什么Decision Tree可以绘制出ROC曲线?》1、数据,并要先one-hot多分类标签y_test = label_binarize(y_test, classes=[0, 1, 2, 3, 4])n_classes = y_test.shape[1] # 几分类(我这里是5分类)2、# 实例化决策树,基尼指数,训练集训练from sklearn.multiclass import OneVsRestClassifierdtc = O原创 2021-03-16 21:50:35 · 12439 阅读 · 8 评论 -
sklearn中的roc_auc_score(多分类或二分类)
首先,你的数据不管是库自带的如:from sklearn.datasets import load_breast_cancerX = data.dataY = data.target还是自备的如:# 读取csv数据data = pd.read_csv("MyData.csv")# 分离自变量与标签X = data.drop("score", axis=1).valuesY = data["score"].values都要注意保证你的数据都是numpy类型的对于二分类直接用Y原创 2021-03-12 20:43:49 · 20996 阅读 · 4 评论 -
理解sklearn决策树的clf.tree_结构(适用于随机森林)
一直想看看tree_到底是怎么个结构,搜索也没有个详细的讲解,在参考了官方文档后(没有我的详细,主要是讲怎么绘制路径的),自己试了挺久终于搞懂了。下面用随机森林的例子开始:RandomForestClassifier中的每棵树都相当于DecisionTreeClassifier的实例。from sklearn.model_selection import train_test_split, cross_val_score, KFold, GridSearchCVimport pandas as pd原创 2021-03-12 17:32:07 · 3385 阅读 · 4 评论 -
使用scikit-learn对csv数据文件构建决策树并可视化
1、对数据进行处理并训练评估模型from sklearn.model_selection import train_test_split, cross_val_score, KFoldimport pandas as pdimport numpy as nppath = "你的csv.csv" # 5分类的data = pd.read_csv(path)# 打乱数据集from...原创 2020-04-20 21:28:08 · 3889 阅读 · 0 评论 -
使用scikit-learn对csv数据文件构建随机森林并可视化
1、对数据进行处理并训练评估模型from sklearn.model_selection import train_test_split, cross_val_score, KFold, GridSearchCVimport pandas as pdimport numpy as npfrom sklearn.ensemble import RandomForestClassifier...原创 2020-04-20 21:29:31 · 2740 阅读 · 3 评论 -
sklearn中的模型评估(分类报告classification_report,混淆矩阵confusion_matrix,准确率acc,召回率recall等)
本文适用包括决策树在内的多个ML算法模型。1、二分类、多分类问题的precision、recall(1)在信息检索中,精确率通常用于评价结果的质量,而召回率用来评价结果的完整性。了解其概念,参考——《准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure》(2)在多分类问题应用这些概念,把每个类别单独视为"正",所有其它类型视为"负"。...原创 2020-03-22 21:32:36 · 6108 阅读 · 0 评论