2018年09月_余康-数据研究，足球迷弟

原创 go语言编译器LiteIDE安装和下载

LiteIDE编译器下载地址链接：https://pan.baidu.com/s/1DQgTpg_5TpRg6Gz4X7GJkA 密码：vgoe 解压之后找到目录：liteide\bin下的liteide.exe双击打开即可。 GO语言下载安装地址官网安装包下载地址为：https://golang.org/dl/ #这是官网，需要翻。。。墙才能下载安装。如果打...

2018-09-21 10:15:35 2421

原创 sklearn如何做好特征工程

以下内容相关包信息：Python3 相关下载主要包：sklearn（scikit-learn）,numpy ,scipy安装：pip install 包名，建议安装顺序numpy，scipy，sklearn（scikit-learn）以下信息参考于知乎，对于部分信息进行修改：1 特征工程是什么？　　有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼...

2018-09-07 10:47:27 4569

原创 No module named 'sklearn.lda'

当我们使用 sklearn 调用 lda 中的线性判别分析法（LDA）报错问题。from sklearn.lda import LDA 这种调用方式是老版本的 sklearn 我们应该尝试用新版本的调用方式就可以解决问题。解决方式：from sklearn.discriminant_analysis import LinearDiscriminantAnalysi...

2018-09-07 10:23:52 8637 1

转载机器学习之信息增益（熵和条件熵）

本文转载于：https://blog.csdn.net/chunyun0716/article/details/51289940要了解信息增益，我们要先知道熵与条件熵的定义。2.1 熵熵是无序度的度量，在信息论和统计中，熵表示随机变量不确定性的度量。假设XX是一个取有限值的离散型随机变量，它的概率分布如下：P(X=xi)=pi,i=1,2,…,nP(X=xi)=pi,i=1,2,...

2018-09-07 10:00:32 5854

转载机器学习之特征选择方法总结

文章转载于：https://blog.csdn.net/lihaitao000/article/details/51213563?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io1、为什么要做特征选择在有限的样本数目下，用大量的特征来设计分类器计算开销太大而且分类性能差。2、特征选择的确切含义...

2018-09-07 09:18:34 4482

原创人工智能算法公式中常见的数据符号的定义和解释？

长期更新中...... 没有记录的希望大家留言补充对数：（log，lg，ln，lb）loglog4 （8）=log4 （4*2）=log4 （4）+log4 （2）=1+0.5=1.5log4 （2）=0.5因为4的1/2次方是2ln是底数为e的对数，比如ln3，就是指e的x次方等于3，这个x就是ln3的值。e叫自然对数，他的值大约是2.718左右。P：概率...

2018-09-06 19:20:23 11926

离散变量是指其数值只能用自然数或整数单位计算的则为离散变量.例如,企业个数,职工人数,设备台数等,只能按计量单位数计数,这种变量的数值一般用计数方法取得.反之,在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值.例如,生产零件的规格尺寸,人体测量的身高,体重,胸围等为连续变量,其数值只能用测量或计量的方法取得.如果变量可以在某个区间内取任一...

2018-09-06 18:48:07 79189

原创机器学习度量方式之基尼不纯度(Gini impurity)和信息熵（Python实现）

决策树是一种简单的机器学习方法。决策树经过训练之后，看起来像是以树状形式排列的一系列if-then语句。一旦我们有了决策树，只要沿着树的路径一直向下，正确回答每一个问题，最终就会得到答案。沿着最终的叶节点向上回溯，就会得到一个有关最终分类结果的推理过程。以下为决策树过程：初始化：#! /usr/bin/python# -*- coding: utf8 -*-# @Time ...

2018-09-06 18:34:55 10887

转载皮尔森相关系数和样本方差

数据来源百度百科皮尔森相关系数皮尔森相关系数的公式为：样本的简单相关系数一般用r表示，其中n 为样本量，分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的取值在-1与+1之间，若r>0，表明两个变量是正相关，即一个变量的值越大，另一个变量的值也会越大；若r<0，表明两个变量是负相关，即一个变量的值越大另一个变量的值反而会越小。r 的绝对值越大表...

2018-09-06 14:59:37 3544

原创递归特征消除Recursive feature elimination （RFE）

递归特征消除的主要思想是反复的构建模型（如SVM或者回归模型）然后选出最好的（或者最差的）的特征（可以根据系数来选），把选出来的特征选择出来，然后在剩余的特征上重复这个过程，直到所有特征都遍历了。这个过程中特征被消除的次序就是特征的排序。因此，这是一种寻找最优特征子集的贪心算法。RFE的稳定性很大程度上取决于在迭代的时候底层用哪种模型。例如，假如RFE采用的普通的回归，没有经过正则化的回归是...

2018-09-06 09:32:12 11726 6

转载机器学习特征选择之卡方检验与互信息

本文转载于：https://blog.csdn.net/yihucha166/article/details/50646615特征选择的主要目的有两点：1.减少特征数量提高训练速度，这点对于一些复杂模型来说尤其重要2.减少noisefeature以提高模型在测试集上的准确性。一些噪音特征会导致模型出现错误的泛化（generalization），从而在测试集...

2018-09-05 19:41:39 2926

原创数据预处理中常见的哑编码/独热编码（One-Hot Encoding）详解（一看就懂）

通常需要处理的数值都是稀疏而又散乱地分布在空间中，然而，我们并不需要存储这些大数值，这时可以用独热编码。例如：我们需要处理4维向量空间，当给一个特征向量的第n个特征进行编码时，编码器会遍历每个特征向量的第n个特征，然后进行非重复计数。若第n个特征的最大值为K，则就把这个特征转换为只有一个值为1而其他值都是0的K+1维向量。encoder=OneHotEncoder(sparse=Fal...

2018-09-04 15:47:08 21187 2

原创机器学习中稀疏矩阵的处理方式和Python实现

在矩阵中，如果数值为0的元素数目远远多于非0元素的数目，并且非0元素分布无规律时，则称该矩阵为稀疏矩阵；与之相反，若非0元素数目占大多数时，则称该矩阵为稠密矩阵。大的稀疏矩阵在一般情况下是通用的，特别是在应用机器学习中，例如包含计数的数据、映射类别的数据编码，甚至在机器学习的整个子领域，如自然语言处理（NLP）。教程概述本教程分为5部分;分别为:稀疏矩阵稀疏的问题机器学习中...

2018-09-04 15:33:58 20991 4

Python开发工程师