DataAnalysts-CSDN博客

转载用python实现数据透视表的功能

介绍也许大多数人都有在Excel中使用数据透视表的经历，其实Pandas也提供了一个类似的功能，名为 pivot_table。虽然pivot_table非常有用，但是我发现为了格式化输出我所需要的内容，经常需要记住它的使用语法。所以，本文将重点解释pandas中的函数 pivot_table，并教大家如何使用它来进行数据分析。如果你对这个概念不熟悉，维基百科上对它做了详细的解释。顺便说一下，你...

2019-02-27 15:10:39 17349 2

转载 mysql having与where的区别

简单描述：需要查询一个数量count，于是做分组查询后，发现有的数据没有过滤掉，于是就想加上过滤条件，就在group by后边写了where ，发现不好使，直接就报错了，查了一下，where只能写在group by前边，要想在后边加限制条件，应该使用having关键字直接放结果：先说一下聚合函数：　　count(a):遇到每个元素 a就加1　　其他的还有：　　MAX(a)和MIN(a)：...

2019-02-27 13:31:30 349

原创 python 边边角角

np.random.RandomState(0) #设置随机数种子shuffle(series)#将序列随机排列，常做打乱顺序使用np.linspace(0.01,1,num=10,endpoint=True)#生成间隔序列，相当于R中的seqnp.logspace(-2,2,num=50)#用linspace相同，但输出值对数化zip()# 函数用于将可迭代的对象作为参数，将对象中对应的...

2019-02-18 21:50:42 317

原创阿里巴巴数据挖掘笔试题摘

（此题至今不懂…其答案)此题也不解，坚定不移地选C

2019-02-15 22:54:29 833

原创错误处理 ModuleNotFoundError: No module named 'imblearn'

在pip里安装了相应的包和模块，但是无法运行使用，真的是要爆炸了。搜索半天的教程，发现操作麻烦，对于初学者真要抓狂。其实仅需查找目前安装包和模块所在位置：在cmd命令中输入pip show 包名字查看location，即文件位置打开相应的文件地址：寻找相应的文件，准备复制至python中包搜寻目录查找python中包与模块的默认搜寻目录：print(os.sys.path)选...

2019-02-15 14:24:33 13425 8

原创机器学习笔记支持向量机算法

基本思想：定义在特征空间上的间隔最大的线性分类器。主要学习策略为使得间隔最大化，可形式化为一个求解二次规划的问题，等价于正则化的合页损失函数的最小化问题。分类：线性：线性可分支持向量机、线性支持向量机；非线性：非线性支持向量机当训练数据线性可分时，通过硬间隔最大化，学习一个线性的分类器，即线性可分支持向量机；当训练数据近似线性可分时，通过软间隔最大化，学习一个线性的分类器...

2019-02-14 15:08:42 305

原创机器学习笔记核方法

输入空间：欧式空间或离散集合；特征空间：希尔伯特空间；核函数：将输入从输入空间映射到特征空间得到的特征向量之间的内积。

2019-02-14 13:47:47 595

原创机器学习笔记：聚类算法

思想：将数据集划分为若干不相交子集（称为簇）。但算法并不会告诉你每个簇是什么意思，需要自行解释。作用：探索性分析方法，用来分析数据的内在特点，寻找数据的分布规律。作为分类的预处理，对待分类的对象进行聚类，然后对聚类出的结果的每一簇上，进行分类。有效性指标：外部指标：由聚类结果与某个参考模型进行比较得出；Jaccard系数、FM指数、Rand指数、ARI指数内部指标：直接由考察聚类结果而...

2019-02-13 13:22:03 373

原创机器学习笔记 PCA降维PYTHON代码

PCA原型：class sklearn.decomposition.PCA(n_components=None,copy=True,whiten=False)参数：属性：方法：注：该方法基于SVD分解，无法解决稀疏项，并无法处理超大规模数据，因为其要求所有数据一次加入内存。代码实例：加载包...

2019-02-13 11:09:31 1809

原创机器学习笔记数据降维算法

降维本质：学习一个映射函数f：x→y，x为原始数据点表达，y是数据点映射后的低维向量。映射函数可以是显示或隐式的、线性或非线性的。主成分分析PCA算法：SVD降维：奇异值分解（SVD）等价于PCA主成分分析。非线性降维方法：PCA基于线性降维，非线性处理方法有：核化线性降维（KPCA）、流形学习降维、多维缩放（MDS）降维、等度量映射降维（Isomp)、局部线性嵌入（LLE）...

2019-02-13 09:08:50 438

原创机器学习笔记 K近邻（附Python与R代码）

K近邻算法原理：通过计算新数据和训练数据特征值之间的距离，然后选取K个距离最近的邻居进行分类判断（投票法）或者回归。特点：不具有显示的学习过程，直接预测。实际上式利用训练数据集对特征向量空间进行划分，并且作为其分类的“模型”。k值选择：k=1，称为最近邻算法。此时将训练集中与测试样本最近的点类别作为测试样本的分类。k较小，用较小的邻域中的训练实例进行预测。偏差较小，方差较大，对近邻的实...

2019-02-12 16:54:18 472

原创机器学习笔记贝叶斯分类器（附Python与R代码）

朴素贝叶斯算法原理：通过某对象的先验概率，利用贝叶斯公式计算出后验概率，即该对象属于某一类的概率，选择具有最大后验概率的类作为该对象所属的类。主要特点：属性可以离散，也可以连续；数学基础扎实，分类效率稳定；对缺失和噪声数据不太敏感；属性如果不相关，分类效果很好；如果相关，则不低于决策树。学习模型：计算对象归属于某一类的后验概率，以此最大概率的类作为对象所属类。即待学习的是对象的后...

2019-02-12 14:05:57 2820

原创机器学习笔记线性模型

写在前面的一些废话伴随课程以及自习，学得既算系统也算零散。学校多统计，算法讲解几近寥寥。自古以来，统计系的教授多半乐于指摘机器学习与人工智能，但学科总又不得不与之挂钩密切，且多随其发展潮起潮落。内部纠纷，不足为外人道已。只有深受其纷杂概念困扰的学习者，感触颇深。不随时总结，建立知识库，实在容易迷失。对《利用PYTHON进行数据分析》重点章节粗略研习，绘制思维导图加深记忆，成效喜闻乐见。但考虑到...

2019-02-11 17:10:15 386

原创利用Python进行数据分析：数据规整化——清理、转换、合并、重塑

2019-02-01 16:16:35 352

原创利用Python进行数据分析：Pandas入门

2019-01-30 17:12:24 249

转载修改操作系统分配给R的内存上限

memory.size(T)查看已分配内存memory.size(F)查看已使用内存memory.limit()查看内存上限object.size()看每个变量占多大内存。memory.size()查看现在的work space的内存使用memory.limit()查看系统规定的内存使用上限。如果现在的内存上限不够用，可以通过memory.limit(newLimit)更改到一个新的上限...

2018-11-06 09:36:33 10547

DataAnalysts的博客