Python数据表示与特征工程1 数据表示与特征工程目前为止,数据都是浮点数的二维数据,而且横着那一排还是个连续特征(continue feature),实际上生活中基本是分类特征(categorical feature),也叫离散特征(discrete feature),且不是数值呢。且我们知道数据缩放很重要,同样的用额外的特征扩充(augment)数据也很有帮助,比如添加特征的交互项呢。特征工程(feature eng...
Python无监督学习3 聚类聚类(clustering)将数据划分为组,这些组叫作簇。聚类算法为每个数字分配一个数字,表示这个点属于哪个簇。1.K均值聚类它试图找到聚类的簇中心,将每个数据点分配到最近的簇中心,然后每个簇中心设置为分配的所有点的平均值。mglearn.plots.plot_kmeans_algorithm()plt.show()先初始化。分配数据点,重新计算中心,一共迭代了3...
Python无监督学习2 降维、特征提取与流形学习为了实现数据变换的那些目的,最常用的算法就是主成分分析。以及另外两种算法:用于特征提取的非负矩阵分解 NMF、用于二位散点图可视化的 t-SNE1.主成分分析主成分分析(principal component analysis, PCA)是一种旋转数据集的方法,旋转后的特征在统计上不相关。通常是根据特征对解释数据的重要性来选择它的一个子集。mglearn....
Python无监督学习1 无监督学习与预处理1.无监督学习的类型本章将研究两种类型的无监督学习:数据集变换与聚类数据集的无监督变换(unsupervised transformation)是创建数据新的表示的算法,提取其特征降维处理。另一个应用是找到“构成”数据的各个组成部分。与之相反,聚类算法(clustering algorithm)将数据划分成不同的组.2.无监督学习的挑战主要挑战是评估算法是...
Pyhton监督学习_分类器的不确定度估计 分类器的不确定度估计scikit-learn 的另一个有用之处就是分类器能给出预测的不确定度估计。我们不仅关心预测点的被分类情况,还关心这个预测的置信度,这个在医学上是很严肃的问题呢。scikit-learn 中有两个函数可以获取不确定度估计,decision_function 和 predict_proba 。from sklearn.model_selection import t...
Python监督学习_神经网络(深度学习) 神经网络(深度学习)深度学习算法往往经过精确调整,只适用于特定的应用场景。这里讨论简单的用于分类和回归的多层感知机(multilayer perceptron, MLP),MLP也被称为前馈神经网络/神经网络。1.神经网络模型MLP可以被视为广义的线性模型。display(mglearn.plots.plot_logistic_regression_graph())输入特征...