机器学习
文章平均质量分 62
Einstellung
这个作者很懒,什么都没留下…
展开
-
决策树
支持向量机,可以采用核方法,将线性分类面转换为非线性的分类面。而决策树可以通过线性分类面作出非线性的决定。决策树模型一个决策树模型就类似于如图所示的内容,所不同的是计算机自己去找分割边界。决策树编码编写代码类似如下:from sklearn import treeclf = tree.DecisionTreeClassifier()clf = clf.fit(iris.data, iris.t原创 2017-07-28 16:26:53 · 829 阅读 · 0 评论 -
主成分分析(PCA)
PCA介绍如图一所示,如果你收到的无论是任何形状的数据,比如此图的数据点云。PAC会通过转换和轮换发现从旧坐标系统获取新的坐标系统他根据数据中心点移动坐标,他将x轴移至变化的主轴,此处数据点相关性最多。他将另一个轴移至相关性变化不那么多的正交的地方。如图所示,经过PCA处理之后新的坐标位于(2,3)点处。主成分析的依据如图所示,PCA以离散最大的情况为x轴,让各个信息映射到x轴上。目的是为了最大程度原创 2017-08-05 18:34:52 · 1246 阅读 · 0 评论 -
交叉验证
在sklearn中将训练/测试数据集分离from sklearn import datasetsiris = datasets.load_iris()features = iris.datalabels = iris.targetfrom sklearn.model_selection import train_test_splitfeatures_train, features_test,原创 2017-08-06 15:43:10 · 1857 阅读 · 0 评论 -
特征选择
特征选择主要就是进行这两步操作去除特征我们不仅要添加新的特征,当特征不符合时我们还要去除特征。下面列举了一些可能的去除特征的原因。注意:特征不等于信息特征实际上是信息特点的一个载体,他和信息实际上是两个概念。不要搞混。我们希望有尽量少的特征和尽量多的信息。这样在分类的时候可以减少出错概率。如果你只有特征而没有信息,那就应该删除这个特征,因为这个特征很有可能会引起算法漏洞。这个特征对应的指标会十分强烈原创 2017-08-03 19:17:21 · 1797 阅读 · 0 评论 -
文本学习
词袋在文本学习中输入的每个句子的长度和内容都有可能是不同的,你不能根据句子的长度进行划分。那么如何将文本中的内容用于机器学习呢?我们现在介绍词袋的概念。他的基本理念就是选定一个文本,然后计算文本的频率。如图所示,实际上词袋以向量形式统计每个单词出现的次数。很明显的是词袋只是对于单词数量的统计而对于单词顺序完全不关心。词袋编码在sklearn中词袋被称为CountVectorizerfrom skle原创 2017-08-02 15:03:54 · 2369 阅读 · 0 评论 -
支持向量机(SVM)
SVM全称为 support vector machine粗略的来说支持向量机就是去寻找两个两个数据之间的分割线,以此来区分不同数据。间隔:margin对于支持向量机来说margin是距离左右两侧之间点的距离。如图所示:这条线使与它最近的点之间距离最大化。对于两个分类来说,这条线最大化了与左右两侧分类点的最大距离。这种距离称之为间隔:margin。他是最大化的产物。这样划分的好处是可以最大限度的提升原创 2017-07-24 16:30:48 · 769 阅读 · 0 评论 -
聚类
K均值(K-Means)K均值算法是什么意思呢?我们下面来做一个介绍: 如图所示,K均值算法第一步是分配,第二步是优化。首先要指定哪个红色的点离绿色的点更近。为此我们可以在两点之间画一条垂直平分线,位于垂直平分线上方的红点和上方绿色的点比较接近。位于垂直平分线下方的红点和下方的绿点比较接近。如图,我们可以将这些距离看作是一条条的橡皮筋。我们优化的办法就是寻找使橡皮筋能量最低的点。即到红色点距离总和原创 2017-08-01 15:26:28 · 471 阅读 · 0 评论 -
朴素贝叶斯
机器学习是将数据转化为决策面的过程scikit-learn缩写为sklearnsklearn.naive_bayes.GaussianNB训练一个分类器,学习之后预测其处理的准确性:def NBAccuracy(features_train, labels_train, features_test, labels_test): from sklearn.naive_bayes import原创 2017-07-23 19:53:38 · 386 阅读 · 0 评论 -
回归
连续和离散对于监督学习而言,有规律的是连续分类,而没有规律的是离散分类。下图展示了一些分类。如图所示,年龄和收入都可以满足一些线性规律(别的规律也可以),即我们可以按照年龄大小进行排序,也可以按照收入高低进行排序。而对于像电话号码这样的事情,没有任何规律可言,所以是离散的分类。线性回归编码from sklearn import linear_modelreg = linear_model.Line原创 2017-07-31 19:31:45 · 495 阅读 · 0 评论 -
特征缩放
我们什么时候用到特征缩放呢?特征缩放的意义又是什么呢?如果我们有多个特征一起来用于作出某一个决定。有些特征的值可能数值极大。有些特征可能数值较小。这是简单的对特征累加之后用于判断显然是不太合适的。特征缩放的意义便在于此。特征缩放公式公式的特点是他的值总是在0和1之间。这个公式不足之处在于她比较容易受极值影响,如果极值是异常值的话,情况会十分糟糕。在sklearn中使用最小最大值缩放器from skl原创 2017-08-01 20:00:37 · 1514 阅读 · 0 评论 -
如何对batch的数据求Gram矩阵
Gram矩阵概念和理解在风格迁移中,我们要比较生成图片和风格图片的相似性,评判标准就是通过计算Gram矩阵得到的。关于Gram矩阵的定义,可以参考[1]。由这个矩阵的样子,很容易就想到协方差矩阵。如果协方差矩阵是什么忘了的化可以参考[2],可以看到Gram矩阵是没有减去均值的协方差矩阵。协方差矩阵是一种相关性度量的矩阵,通过协方差来度量相关性,也就是度量两个图片风格的相似性。(如果相对协方差和...原创 2019-09-24 11:00:55 · 1130 阅读 · 0 评论