Python机器学习应用
Python机器学习应用
JinbaoSite
不忘初心,方得始终。
展开
-
Python机器学习应用 | 无监督学习课程测验
1单选(2分) 以下距离度量方法中,要对样本点的各个属性进行标准化的是: A.马氏距离 B.欧氏距离 C.曼哈顿距离 D.夹角余弦正确答案:A2单选(2分) 以下不属于无监督学习的算法是: A.KMeans B.DBSCAN C.PCA D.KNN正确答案:D3多选(2分) 无监督学习的两大主要任务分别是: A.聚类 B.降维 C.分类 D.回归正确答案:A、B4多选(原创 2017-06-09 23:03:33 · 3096 阅读 · 0 评论 -
Python机器学习应用 | 监督学习课程测验
1单选(2分) 假设,我们有如下分成三类的数据,使用KNN算法(k=4),计算点(6,5)所属的类别应是(欧式距离): A.不确定 B.类别1 C.类别2 D.类别3答案:C2单选(2分) 以下说法正确的是: A.监督学习与无监督学习的主要区别是,监督学习的训练样本无标签 B.决策树只能用于二分类问题 C.神经网络可以用于多分类问题 D.分类任务的评价指标精确率和准确率是同一原创 2017-06-16 22:47:04 · 2800 阅读 · 0 评论 -
Python机器学习应用 | 强化学习
1 强化学习1、强化学习就是程序或智能体(agent)通过与环境不断地进行交互学习一个从环境到动作的映射,学习的目标就是使累计回报最大化。 2、强化学习是一种试错学习,因其在各种状态(环境)下需要尽量尝试所有可以选择的动作,通过环境给出的反馈(即奖励)来判断动作的优劣,最终获得环境和最优动作的映射关系(即策略)。2 马尔可夫决策过程(MDP)马尔可夫决策过程(Markov Decision Pro原创 2017-07-02 17:56:52 · 3799 阅读 · 0 评论 -
Python机器学习应用 | KNN实现手写识别
1 任务介绍手写数字识别是一个多分类问题,共有10个分类,每个手写数字图像的类别标签是0~9中的其中一个数。例如下面这三张图片的标签分别是0,1,2。 本实例利用sklearn来训练一个K最近邻(k-Nearest Neighbor,KNN)分类器,用于识别数据集DBRHD的手写数字。 比较KNN的识别效果与多层感知机的识别效果。2 KNN的输入DBRHD数据集的每个图片是一个由0或1组成的原创 2017-06-26 18:08:01 · 2201 阅读 · 0 评论 -
Python机器学习应用 | MLP实现手写识别
1 任务介绍手写数字识别是一个多分类问题,共有10个分类,每个手写数字图像的类别标签是0~9中的其中一个数。例如下面这三张图片的标签分别是0,1,2。 任务:利用sklearn来训练一个简单的全连接神经网络,即多层感知机(Multilayer perceptron,MLP)用于识别数据集DBRHD的手写数字。2 MLP的输入DBRHD数据集的每个图片是一个由0或1组成的32*32的文本矩阵;原创 2017-06-25 21:42:48 · 9460 阅读 · 3 评论 -
Python机器学习应用 | 岭回归
1 岭回归对于一般地线性回归问题,参数的求解采用的是最小二乘法,其目标函数如下: argmin||Xw−y||2argmin || Xw-y ||^2 参数w的求解,也可以使用如下矩阵方法进行: w=(XTX)−1XTyw=(X^TX)^{-1}X^Ty 对于矩阵X,若某些列线性相关性较大(即训练样本中某些属性线性相关),就会导致XTXX^TX的值接近0,在计算 (XTX)−1(X^TX)^原创 2017-06-30 10:53:19 · 4027 阅读 · 7 评论 -
Python机器学习应用 | 多项式回归
1 多项式回归多项式回归(Polynomial Regression)是研究一个因变量与一个或多个自变量间多项式的回归分析方法。如果自变量只有一个时,称为一元多项式回归;如果自变量有多个时,称为多元多项式回归。 在一元回归分析中,如果依变量y与自变量x的关系为非线性的,但是又找不到适当的函数曲线来拟合,则可以采用一元多项式回归。 多项式回归的最大优点就是可以通过增加x的高次项对实测点进行逼近,直原创 2017-06-24 14:16:17 · 8622 阅读 · 1 评论 -
Python机器学习应用 | 线性回归
1 线性回归线性回归(Linear Regression)是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。 线性回归利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。线性回归:使用形如y=wTx+by=w^T原创 2017-06-24 11:00:55 · 2080 阅读 · 1 评论 -
Python机器学习应用 | 人体运动状态预测
1 背景介绍可穿戴式设备的流行,让我们可以更便利地使用传感器获取人体的各项数据,甚至生理数据。 当传感器采集到大量数据后,我们就可以通过对数据进行分析和建模,通过各项特征的数值进行用户状态的判断,根据用户所处的状态提供给用户更加精准、便利的服务。2 数据介绍我们现在收集了来自 A,B,C,D,E 5位用户的可穿戴设备上的传感器数据,每位用户的数据集包含一个特征文件(a.feature)和一个标签文原创 2017-06-23 19:02:09 · 5551 阅读 · 6 评论 -
Python机器学习应用 | 基本分类模型
1 K近邻分类器(KNN)KNN:通过计算待分类数据点与已有数据集中的所有数据点的距离,取距离最小的前K个点,根据“少数服从多数”的原则,将这个数据点划分为出现次数最多的那个类别。 1.1 sklearn中的K近邻分类器在sklearn库中,可以使用sklearn.neighbors.KNeighborsClassifier创建一个K近邻分类器,主要参数有: (1)n_neighbors:用于指原创 2017-06-23 13:33:24 · 2997 阅读 · 0 评论 -
Python机器学习应用 | 监督学习
1 监督学习的目标利用一组带有标签的数据,学习从输入到输出的映射,然后将这种映射关系应用到未知数据上,达到分类或回归的目的。 分类:当输出是离散的,学习任务为分类任务。 回归:当输出是连续的,学习任务为回归任务。2 分类学习输入:一组有标签的训练数据(也称观察和评估),标签表明了这些数据(观察)所属类别。 输出:分类模型根据这些训练数据,训练自己的模型参数,学习出一个适合这组数据的分类器,当有原创 2017-06-23 09:41:47 · 1878 阅读 · 0 评论 -
Python机器学习应用 | 降维——NMF方法及实例
1 非负矩阵分解(NMF)1、非负矩阵分解(Non-negative Matrix Factorization ,NMF)是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。 2、基本思想:给定一个非负矩阵V,NMF能够找到一个非负矩阵W和一个非负矩阵H,使得矩阵W和H的乘积近似等于矩阵V中的值。 Vn∗m=Wn∗k∗Hk∗mV_{n*m}=W_{n*k}*H_{k*m} W矩阵:基础原创 2017-06-29 22:24:19 · 10613 阅读 · 1 评论 -
Python机器学习应用 | 降维——PCA方法及其应用
1 主成分分析(PCA)1、主成分分析(Principal Component Analysis,PCA)是最常用的一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数据压缩和预处理等。 2、PCA可以把具有相关性的高维变量合成为线性无关的低维变量,称为主成分。主成分能够尽可能保留原始数据的信息。 3、矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值原创 2017-06-29 19:10:57 · 3124 阅读 · 0 评论 -
Python机器学习应用 | 基于聚类的“图像分割”
1 图像分割1、图像分割:利用图像的灰度、颜色、纹理、形状等特征,把图像分成若干个互不重叠的区域,并使这些特征在同一区域内呈现相似性,在不同的区域之间存在明显的差异性。然后就可以将分割的图像中具有独特性质的区域提取出来用于不同的研究。 2、图像分割技术已在实际生活中得到广泛的应用。例如:在机车检验领域,可以应用到轮毂裂纹图像的分割,及时发现裂纹,保证行车安全;在生物医学工程方面,对肝脏CT图像进行原创 2017-07-01 16:57:50 · 3912 阅读 · 0 评论 -
Python机器学习应用 | 聚类——K-means方法及应用
1 K-means聚类算法k-means算法以k为参数,把n个对象分成k个簇,使簇内具有较高的相似度,而簇间的相似度较低。其处理过程如下: 1.随机选择k个点作为初始的聚类中心; 2.对于剩下的点,根据其与聚类中心的距离,将其归入最近的簇 3.对每个簇,计算所有点的均值作为新的聚类中心 4.重复2、3直到聚类中心不再发生改变 2 K-means的应用2.1 数据介绍现有1999年全国31个原创 2017-06-27 14:41:03 · 2864 阅读 · 0 评论 -
Python机器学习应用 | 聚类——DBSCAN方法及应用
1 DBSCAN密度聚类DBSCAN算法是一种基于密度的聚类算法: • 聚类的时候不需要预先指定簇的个数 • 最终的簇的个数不定DBSCAN算法将数据点分为三类: • 核心点:在半径Eps内含有超过MinPts数目的点 • 边界点:在半径Eps内点的数量小于MinPts,但是落在核心点的邻域内 • 噪音点:既不是核心点也不是边界点的点2 DBSCAN算法流程1.将所有点标记为核心点、边界点原创 2017-06-27 15:03:45 · 6510 阅读 · 1 评论 -
Python机器学习应用 | 无监督学习
1 无监督学习利用无标签的数据学习数据的分布或数据与数据之间的关系被称作无监督学习。 有监督学习和无监督学习的最大区别在于数据是否有标签 无监督学习最常应用的场景是聚类(clustering)和降维(DimensionReduction)2 聚类(clustering)聚类(clustering),就是根据数据的“相似性”将数据分为多类的过程。 评估两个不同样本之间的“相似性” ,通常使用的方原创 2017-06-27 14:13:58 · 2289 阅读 · 0 评论