![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
机器学习
!一直往南方开.
这个作者很懒,什么都没留下…
展开
-
神经网络(线性神经网络)
线性神经网络线性神经网络在结构上与感知器非常相似,只是激活函数不同。在模型训练时把原来的sign函数改成了purelin函数:y = x线性神经网络结构代码示例import numpy as npimport matplotlib.pyplot as plt#输入数据X = np.array([[1,3,3], [1,4,3], ...原创 2020-04-27 21:30:51 · 950 阅读 · 0 评论 -
神经网络(单层感知器)
感知器介绍感知器是神经网络中的一个概念,在1950s由Frank Rosenblatt第一次引入。单层感知器是最简单的神经网络。它包含输入层和输出层,而输入层和输出层是直接相连的。与最早提出的MP模型不同,神经元突触权值可变,因此可以通过一定规则进行学习。可以快速、可靠地解决线性可分的问题。单层感知器由一个线性组合器和一个二值阈值元件组成。输入向量为x,权重向量为w,w0为偏执。...原创 2020-04-27 14:44:57 · 1264 阅读 · 0 评论 -
SVM实战
SVM实战import numpy as np# import matplotlib.pyplot as pltimport pandas as pdimport warningsfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerwar...原创 2020-04-13 21:28:46 · 399 阅读 · 0 评论 -
DBSCAN
DBSCAN算法将具有足够高密度的区域划分为簇,并可 以发现任何形状的聚类DBSCAN算法概念????邻域:给定对象半径????内的区域称为该对象的????邻域。核心对象:如果给定 ???? 邻域内的样本点数大于等于Minpoints, 则该对象为核心对象。直接密度可达:给定一个对象集合D,如果p在q的????邻域内, 且q是一个核心对象,则我们说对象p从q触发是直接密度可达 的(directly densi...原创 2020-04-09 12:37:52 · 490 阅读 · 0 评论 -
K-Means聚类算法(三)
K-Means算法问题一对k个初始质心的选择比较敏感,容易陷入局部最小值。 例如,算法运行的时候,有可能会得到不 同的结果,如下面这两种情况。K-means也是收敛了, 只是收敛到了局部最小值代码改善部分# 设置k值k = 4 min_loss = 10000min_loss_centroids = np.array([])min_loss_clusterData = np.a...原创 2020-04-08 10:22:52 · 1012 阅读 · 0 评论 -
K-Means聚类算法(二)
sklearn实现K-Meansfrom sklearn.cluster import KMeansimport numpy as npimport matplotlib.pyplot as plt# 载入数据data = np.genfromtxt("kmeans.txt", delimiter=" ")# 设置k值k = 4 # 训练模型model = KMeans(n...原创 2020-04-07 22:58:07 · 213 阅读 · 0 评论 -
K-Means聚类算法(一)
聚类“类”指的是具有相似性的集合,聚类是指将数据集划分为若干类,使得各个类之内的数据最为相似,而各个类之间的数据相似度差别尽可能的大。聚类分析就是以相似性为基础,在一个聚类中的模式之间比不在同一个聚类中的模式之间具有更多的相似性。对数据集进行聚类划分,属于无监督学习。K-MeansK-Means算法是一种简单的迭代型聚类算法,采用距离作为相似性指标,从而发现给定数据集中的K个类,且每个类的中...原创 2020-04-07 11:55:45 · 3205 阅读 · 0 评论 -
朴素贝叶斯(二)单词拼写检查器
拼写检查器原理在所有正确的拼写词中, 我们想要找一个正确的词 B, 使得对于 w 的条件概率最大。求解:P(B|w) -> P(w|B) P(B)/ P(w)比如:appla是条件w,apple和apply是正确的词B,对于apple和apply来说P(w)都是一样的,所以我们在上式中忽略它, 写成:P(w|B) P(B)P(B), 文章中出现这个正确拼写的词 B 的概率, 也就...原创 2020-04-06 23:11:02 · 338 阅读 · 0 评论 -
词袋模型与TF-IDF
词集与词袋模型算法的主要作用也就是对文本做单词切分,有点从一篇文章里提取关键词这种意思,旨在用向量来描述文本的主要内容,其中包含了词集与词袋两种。词集模型 DictVectorizer:单词构成的集合,集合中每个元素只有一个,即词集中的每个单词都只有一个。词袋模型 CountVectorizer:在词集的基础上加入了频率这个维度,即统计单词在文档中出现的次数(令牌化和出现频数统计),通常我们...原创 2020-04-06 15:40:45 · 1628 阅读 · 3 评论 -
朴素贝叶斯(一)
贝叶斯定理贝叶斯公式:其中,P(A|B)是指事件B发生的情况下事件A发生的概率(条件概率).在贝叶斯定理中,每个名词都有约定俗成的名称:P(A|B)是已知B发生后A的条件概率,也由于得知B的取值而被称作A的后验概率;P(A)是A的先验概率(或边缘概率).之所以称为"先验"是因为它不考虑任何B方面的因素;P(B|A)是已知A发生后B的条件概率,也由于得知A的取值而成称作B的后验概率;...原创 2020-04-05 18:11:34 · 244 阅读 · 0 评论 -
集成学习(voting)
voting使用方式voting = ‘hard’:根据少数服从多数来定最终结果voting = ‘soft’:将所有模型预测样本为某一类别的概率的平均值作为标准,概率最高的对应的类型为最终的预测结果代码实现from sklearn import datasets from sklearn import model_selection from sklearn.linea...原创 2020-04-01 10:02:00 · 1921 阅读 · 0 评论 -
集成学习(stacting)
stacting将训练好的所有基模型对整个训练集进行预测,第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值,最后基于新的训练集进行训练。同理,预测的过程也要先经过所有基模型的预测形成新的测试集,最后再对测试集进行预测Stacking简单理解就是讲几个简单的模型,一般采用将它们进行K折交叉验证输出预测结果,然后将每个模型输出的预测结果合并为新的特征,并使用新的模型...原创 2020-04-01 09:49:03 · 204 阅读 · 0 评论 -
集成学习(boosting)
boostingboosting是一种将弱分类器组合成强分类器的过程构造一个强分类器很难构造弱分类器不难弱分类器的要求:强于随机猜测 (很浅的CART树即可)Adaboost算法首先,是初始化训练数据的权值分布D1。假设有 N 个训练样本数据,则每一个训练样本最开始时,都被赋予 相同的权值: w 1=1/N。然后,训练弱分类器 hi 。具体训练过程中是:如果 某个训练样本点...原创 2020-03-28 18:44:31 · 434 阅读 · 0 评论 -
集成学习(bagging)
baggingbagging也叫做bootstrap aggregating,是在原始 数据集选择S次后得到S个新数据集的一种技术。是一 种有放回抽样。导入iris数据# 导入算法包以及数据集from sklearn import neighborsfrom sklearn import datasetsfrom sklearn.ensemble import BaggingCla...原创 2020-03-28 13:48:59 · 3580 阅读 · 0 评论 -
决策树(三)
线性二分类数据样式使用的数据是上次用于逻辑回归的数据import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.metrics import classification_reportfrom sklearn import treeimport graphviz# 导入数据...原创 2019-11-12 18:12:08 · 257 阅读 · 0 评论 -
决策树(二)
CART算法Gini指数原创 2019-11-11 21:43:17 · 3060 阅读 · 0 评论 -
决策树(一)
决策树决策树是一种基本的分类方法,当然也可以用于回归。决策树模型呈树形结构。在分类问题中,表示基于特征对实例进行分类的过程,它可以认为是if-then规则的集合。在决策树的结构中,每一个实例都被一条路径或者一条规则所覆盖。通常决策树学习包括三个步骤:特征选择、决策树的生成和决策树的修剪用于离散型数据优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理逻辑回归等不能解决...原创 2019-11-09 21:18:09 · 350 阅读 · 0 评论 -
KNN算法(K近邻算法)
算法简介KNN算法中文名称叫做K近邻算法,是众多机器学习算法里面最基础入门的算法。它是一个有监督的机器学习算法,既可以用来做分类任务也可以用来做回归任务。KNN算法的核心思想是未标记的样本的类别,由距离他最近的K个邻居投票来决定算法三要素(1).k值的选取对于k值的选择,没有一个固定的经验,一般根据样本的分布,选择一个较小的值,可以通过交叉验证选择一个合适的k值。选择较小...原创 2019-10-31 20:40:12 · 1325 阅读 · 0 评论 -
逻辑回归
逻辑回归介绍逻辑回归是一种广义线性回归,本质上与多元线性回归相差无几。相当于将回归的结果带入 sigmoid 函数进行缩放,使得最终结果为二分类原理与预测函数预测函数,拿我们讨论的最标准的二分类来说,分别计算p(y=1|x),p(y=0|x)哪个条件概率大就分到哪一类损失函数的推导反映了两个概率分布之间的差异信息,其中p表示真实分布,q表示非真实分布,即反应我们推测的分布和真实分布...原创 2019-10-26 21:58:00 · 905 阅读 · 0 评论 -
线性回归以及非线性回归
一元线性回归只含有一个自变量,对应的方程是一条直线代价函数(损失函数)这个代价函数也称为平方误差代价函数思想:对于训练样本(x, y)来说,选择θ0,θ1 使h(x) 接近y选择合适的(θ0, θ1)使得代价函数最小...原创 2019-10-20 17:21:04 · 1478 阅读 · 0 评论 -
机器学习之基本概念
数据挖掘数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等训练集作用:估计...原创 2019-10-12 20:53:09 · 282 阅读 · 0 评论