昆兰.沃斯 的博客

贵有恒,何必三更起五更眠;最无益,只怕一日暴十寒

数据挖掘——无量纲化

在进行特征选择之前,一般会先进行数据无量纲化处理,这样,表征不同属性(单位不同)的各特征之间才有可比性,如1cm 与 0.1kg 你怎么比?无量纲处理方法很多,使用不同的方法,对最终的机器学习模型会产生不同的影响。本文将对常用的无量纲化技术进行总结,试图指出他们的适用场景,并给出在Python中的...

2019-03-25 20:13:23

阅读数 212

评论数 0

偏度(skewness)和峰度(kurtosis)

偏度 偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩。 偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫负偏分布,其偏度<0)。 Py...

2019-03-19 20:32:55

阅读数 158

评论数 0

自然语言处理库TfidfVectorizer(CountVectorizer与TfidfTransformer的结合)

这里简单介绍下scikit-learn自然语言文本处理的一个开源方法——TfidfVectorizer,该方法分别是由两种方法 CountVectorizer 与 TfidfTransformer 的结合,下面进行说明,说明之前给出三个文档链接(本文基本翻译自官方文档): (文档在手天下我有,有...

2018-12-13 14:32:43

阅读数 513

评论数 0

json以及它的方法load、dump、loads、dumps

稍微详细点介绍下json及四个函数作用「load、dump、loads、dumps」如下: JSON: JSON是一种轻量级的数据交换语言,易于阅读,用来传输由属性值或者序列的值组成的数据对象。JSON 是 JS 对象的字符串表示法,它使用文本表示一个 JS 对象的信息,本质是一个字符串。很多...

2018-12-01 23:57:48

阅读数 166

评论数 0

Windows下Python3.6安装 fbprophet库

近来,Facebook开源了基于 Python 和 R 语言的 时间序列数据预测工具——“Prophet”。官方号称“让普通人也能像数据分析师一样得出专业的结论”。 我觉得可能有点悬,因为很多人都被卡在了第一步——安装 借用一句话: Windows用户们请相信我,只要你按照官方的步骤来: ...

2018-11-13 22:53:36

阅读数 605

评论数 2

利用mlxtend进行数据关联分析

今天本该是个剁手的日子,只可惜余额不足高攀不起那台i7-8565,只有再写一篇文章聊以慰籍~~ 前言:之前很少做关于数据关联分析的题,而当初学关联分析时也是自己写代码来实现底层转换与运算,粗略一点的整体代码量也达到150行左右,所以没有高级的开源工具使用是很费时间的,由此阻碍了一颗想学习的心。后...

2018-11-11 21:57:02

阅读数 1322

评论数 0

模型评估方法(混淆矩阵)

在数据挖掘或机器学习建模后往往会面临一个问题,就是该模型是否可靠?可靠性如何?也就是说模型的性能如何我们暂时不得而知。 如果模型不加验证就使用,那后续出现的问题将会是不可估计的。所以通常建模后我们都会使用模型评估方法进行验证,当验证结果处于我们的可控范围之内或者效果更佳,那该模型便可以进行后续的...

2018-11-11 12:38:00

阅读数 1007

评论数 0

pandas中的stack与unstack简单描述

  在用pandas进行数据重排时,经常用到stack和unstack两个函数。stack简单理解可以是堆叠,堆积,unstack即“不要堆叠”。下面为较为浅显的讲述该方法,并未涉及到多标签的问题。   常见的数据的层次化结构有两种,一种是表格,一种是“花括号”,即下面这样的l两种形式: ...

2018-11-07 22:39:16

阅读数 124

评论数 0

逻辑回归中如何应用梯度下降算法与损失函数

前面一篇博客介绍了关于梯度下降算法来由以及说明了为什么梯度的负方向就是梯度下降最快方向,本文将会在上文的知识下简述在逻辑回归(Logistic Regression)中为什么可以使用以及如何使用梯度下降算法。 梯度下降算法是个比较简单容易理解的算法,就像吴老师或很多资料上记载的一样:每次从新起点...

2018-11-01 22:54:05

阅读数 1838

评论数 0

如何理解图片RGB通道在python(numpy)中的数据构成

今天是个特殊的日子 1024 ,出于本能强行写下一篇文章。伟大而又平凡的程序猿祝你节日快乐。 该文将尽可能简短的描述基于numpy,在python中使用skimage的io或PIL或其他方法读取图片后GRB数据的结构与呈现方式。 我们肉眼看到的图片无非两种(灰色和彩色),而通过编程语言转换为电...

2018-10-24 22:37:02

阅读数 1741

评论数 0

梯度下降算法简明教程

最早接触梯度下降算法是在学习逻辑回归(Logistic Regression),对于权重的迭代更新。当然运用梯度算法的地方远不止逻辑回归,该方法思路简单但适用范围很广,简单的线性回归(Linear Regression),以及最近在看的神经网络(Neural Network)都有涉及梯度算法,所以...

2018-10-21 20:03:52

阅读数 562

评论数 0

岭回归、LASSO回归(包括公式推导)

前面的两篇文章比较清楚浅显的介绍了线性回归、多项式回归,并了解到其实多项式回归也可以看作是一种特殊的线性回归形式,也就是说回归的核心就是线性回归。其原理都是最小二乘法,这是一种很简单、很方便的算法,但也有它的局限性,所以本文讲述另外的回归方式岭回归、LASSO回归,作为一个补充,解决最小二乘法的一...

2018-10-03 16:09:32

阅读数 664

评论数 1

多项式回归

多项式回归 多项式回归,回归函数是回归变量多项式的回归。多项式回归模型是线性回归模型的一种,此时回归函数关于回归系数是线性的。由于任一函数都可以用多项式逼近,因此多项式回归有着广泛应用。 直线回归研究的是一个因变量与一个自变量之间的回归问题,但在实际情况中,影响因变量的自变量往往不止一个,例如...

2018-10-02 23:08:37

阅读数 1778

评论数 0

线性回归

线性回归: 简单描述就是通过线性方程(1次函数)去拟合数据点: 但是如何使用该线性方程去拟合数据点呢?我们能得到拟合的整体误差,即图中蓝色线段的长度总和。如果某一条直线对应的误差值最小,就代表这条直线最能反映数据点的分布趋势: 误差如何表示?在线性回归中,使用残差的平方和来表示所有样本点...

2018-10-02 11:10:29

阅读数 84

评论数 0

标准化、归一化、中心化

标准化、归一化、中心化 数据分析及挖掘中常提到的几个概念(数据的 标准化、归一化、中心化),虽然经常在用,但可能还是有一些比较生僻的知识容易搞混淆,所以在十月国庆大家都出门上高速堵车的时候抽了点时间对这些概念以我的能力和理解做一个相对系统和浅显的总结。 本篇文章通过个人以前对这些知识的一个先验...

2018-10-01 23:22:52

阅读数 759

评论数 0

TF-IDF及相关知识(余弦相似性)

自然语言的处理是一个神奇的领域,它涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,由于复习相关知识,所以这里对该方向的部分知识做一个简单的介绍和记录。 该文主要记录的是一个很简单却很经典有效的算法——TF-IDF。从它的概念到运算可能花不了10分钟就能了解,并且用到的运算知识都不涉及高等...

2018-09-15 15:42:15

阅读数 381

评论数 2

PCA(explained_variance_ratio_与explained_variance_)

之前有写过关于PCA的原理和代码实现,但是对于sklearn中的PCA没有做过多的描述,所以这里转载一篇文章作为补充: 这里提一点:pca的方法explained_variance_ratio_计算了每个特征方差贡献率,所有总和为1,explained_variance_为方差值,通过合理使用这...

2018-09-09 15:21:12

阅读数 1614

评论数 0

绘制学习曲线——plot_learning_curve

学习曲线:一种用来判断训练模型的一种方法,通过观察绘制出来的学习曲线图,我们可以比较直观的了解到我们的模型处于一个什么样的状态,如:过拟合(overfitting)或欠拟合(underfitting) 先来看看如何解析学习曲线图: 要看深刻了解上面的图形意义,你需要了解偏差(bias)、方...

2018-09-09 12:50:35

阅读数 5301

评论数 3

Pandas的qcut()与cut()

>>> factors = np.random.randn(9) [ 2.12046097 0.24486218 1.64494175 -0.27307614 -2.11238291 2.15422205 -0.4683285...

2018-09-07 13:39:32

阅读数 808

评论数 0

Bagging和Boosting(偏差与方差)

机器学习中的集成学习有两个重要的策略,即Bagging与Boosting。 Bagging:     算法构建多个分类器,每个分类器都随机从原样本中做有放回的抽样,利用这些采样后的样本训练该分类器,然后将这些分类器组合起来构成一个更强效果更好的组合分类器,结果一般使用多数投票效果就很好了。其代...

2018-09-07 09:29:39

阅读数 1382

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭