python
清风佐鸣琴
这个作者很懒,什么都没留下…
展开
-
特征工程之分类变量的处理
分类变量是表示类别或标记的。与数值型变量不同,分类变量的值是不能被排序的,故而又称为无序变量。one-hot编码独热编码(one-hot encoding)通常用于处理类别间不具有大小关系的特征。独热编码使用一组比特位表示不同的类别,每个比特位表示一个特征。因此,一个可能有k个类别的分类变脸就可以编码成为一个长度为k的特征向量。若变量不能同时属于多个类别,那这组值就只有一个比特位是‘开’的。独热编码的优缺点:独热编码解决了分类器不好处理属性数据的问题,在一定程度上也起到了扩充特征的作用。它的值只有原创 2020-07-20 20:59:27 · 835 阅读 · 0 评论 -
KMeans算法之鸢尾花聚类
# 导入数据from sklearn.datasets import load_irisfrom sklearn.cluster import KMeansimport matplotlib.pyplot as plt# 数据实例化iris = load_iris() iris.dataarray([[5.1, 3.5, 1.4, 0.2], [4.9, 3. , 1.4, 0.2], [4.7, 3.2, 1.3, 0.2], [4.6, 3.1原创 2020-06-25 20:44:13 · 8920 阅读 · 0 评论 -
sklearn之聚类算法
from sklearn.datasets import make_blobsimport matplotlib.pyplot as pltx, y = make_blobs(n_samples=500, n_features=2, centers=4, random_state=42)fig, ax1 = plt.subplots(1)ax1.scatter(x[:,0],x[:,1], marker='o', s=8)plt.show()[外原创 2020-06-22 11:14:32 · 465 阅读 · 0 评论 -
KNN算法实战之糖尿病预测
#导入库import numpy as npimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.metrics import accuracy_score#读取数据,数据下载链接https://www.kaggle.com/uciml/pima-indians-diabetes-d原创 2020-06-04 19:58:26 · 2780 阅读 · 0 评论 -
sklearn实现朴素贝叶斯
高斯朴素贝叶斯GaussianNB高斯朴素贝叶斯假设P(xi∣Y)P(x_i|Y)P(xi∣Y)服从高斯正态分布,来估计每个特征下每个类别上的条件概率。参数含义priors:array-like of shape (n_classes,)可输入任何类数组结构,形状为(n_class,)表示类的先验概率。如果指定,则不根据数据调整先验,如果不指定则自行根据数据计算先验概率。var_smoothing:float, default=1e-9在估计方差时,为了追求估计得稳定性,原创 2020-06-02 21:19:52 · 876 阅读 · 2 评论 -
sklearn之概率类模型的评估指标
sklearn.metrics.brier_score_losssklearn.metrics.brier_score_loss(y_true, y_prob, *, sample_weight=None, pos_label=None)[source]¶概率预测的准确程度被称为“校准程度”,是衡量算法预测出的概率和真实结果的差异的一种方式。一种比较常用的指标叫做布里尔分数,它被计算为是概率预测相对于测试样本的均方误差,表示为:Brier Score = 1N∑i=1n(原创 2020-05-31 23:08:41 · 1948 阅读 · 0 评论 -
决策树——泰坦尼克号幸存者分析
import pandas as pdfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_test_splitfrom sklearn.model_selection import GridSearchCVfrom sklearn.model_selection import cross_val_scoreimport matplotlib.pyplot as pltd原创 2020-05-22 21:21:30 · 490 阅读 · 0 评论 -
决策树的基本原理与经典算法(1)
概念分类:分类任务就是通过学习得到一个目标函数(target function)f,把每个属性集x映射到一个预先定义的类标号y。注意:类标号必须是离散属性,这是区别分类与回归(regression)的关键特征。回归是一种预测建模任务,其中目标属性y是连续的。解决分类问题的一般方法首先,需要一个训练集(training set),其由类标号已知的记录组成。使用训练集建立分类模型,该模型随后将用于检验集(test set),检验集由类标号未知的记录组成。分类模型的性能根据模型正确和错误预测的检验记录计原创 2020-05-18 20:45:53 · 774 阅读 · 0 评论 -
sklearn实现决策树
sklearn.tree.DecisionTreeClassifierclass sklearn.tree.DecisionTreeClassifier(*, criterion=‘gini’, splitter=‘best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=原创 2020-05-18 20:00:24 · 797 阅读 · 0 评论