自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

转载 用python实现数据透视表的功能

介绍也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为 pivot_table。虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容,经常需要记住它的使用语法。所以,本文将重点解释pandas中的函数 pivot_table,并教大家如何使用它来进行数据分析。如果你对这个概念不熟悉,维基百科上对它做了详细的解释。顺便说一下,你...

2019-02-27 15:10:39 17321 2

转载 mysql having与where的区别

简单描述:需要查询一个数量count,于是做分组查询后,发现有的数据没有过滤掉,于是就想加上过滤条件,就在group by后边写了where ,发现不好使,直接就报错了,查了一下,where只能写在group by前边,要想在后边加限制条件,应该使用having关键字直接放结果:先说一下聚合函数:  count(a):遇到每个元素 a就加1  其他的还有:  MAX(a)和MIN(a):...

2019-02-27 13:31:30 335

原创 python 边边角角

np.random.RandomState(0) #设置随机数种子shuffle(series)#将序列随机排列,常做打乱顺序使用np.linspace(0.01,1,num=10,endpoint=True)#生成间隔序列,相当于R中的seqnp.logspace(-2,2,num=50)#用linspace相同,但输出值对数化zip()# 函数用于将可迭代的对象作为参数,将对象中对应的...

2019-02-18 21:50:42 302

原创 阿里巴巴数据挖掘笔试题摘

(此题至今不懂…其答案)此题也不解,坚定不移地选C

2019-02-15 22:54:29 801

原创 错误处理 ModuleNotFoundError: No module named 'imblearn'

在pip里安装了相应的包和模块,但是无法运行使用,真的是要爆炸了。搜索半天的教程,发现操作麻烦,对于初学者真要抓狂。其实仅需查找目前安装包和模块所在位置:在cmd命令中输入pip show 包名字查看location,即文件位置打开相应的文件地址:寻找相应的文件,准备复制至python中包搜寻目录查找python中包与模块的默认搜寻目录:print(os.sys.path)选...

2019-02-15 14:24:33 13357 8

原创 机器学习笔记 支持向量机算法

基本思想:定义在特征空间上的间隔最大的线性分类器。主要学习策略为使得间隔最大化,可形式化为一个求解二次规划的问题,等价于正则化的合页损失函数的最小化问题。 分类:线性:线性可分支持向量机、线性支持向量机;非线性:非线性支持向量机当训练数据线性可分时,通过硬间隔最大化,学习一个线性的分类器,即线性可分支持向量机;当训练数据近似线性可分时,通过软间隔最大化,学习一个线性的分类器...

2019-02-14 15:08:42 297

原创 机器学习笔记 核方法

输入空间:欧式空间或离散集合;特征空间:希尔伯特空间;核函数:将输入从输入空间映射到特征空间得到的特征向量之间的内积。

2019-02-14 13:47:47 580

原创 机器学习笔记:聚类算法

思想:将数据集划分为若干不相交子集(称为簇)。但算法并不会告诉你每个簇是什么意思,需要自行解释。作用:探索性分析方法,用来分析数据的内在特点,寻找数据的分布规律。作为分类的预处理,对待分类的对象进行聚类,然后对聚类出的结果的每一簇上,进行分类。有效性指标:外部指标:由聚类结果与某个参考模型进行比较得出;Jaccard系数、FM指数、Rand指数、ARI指数内部指标:直接由考察聚类结果而...

2019-02-13 13:22:03 363

原创 机器学习笔记 PCA降维PYTHON代码

PCA原型:class sklearn.decomposition.PCA(n_components=None,copy=True,whiten=False)参数:属性:方法:注:该方法基于SVD分解,无法解决稀疏项,并无法处理超大规模数据,因为其要求所有数据一次加入内存。代码实例:加载包...

2019-02-13 11:09:31 1797

原创 机器学习笔记 数据降维算法

降维本质:学习一个映射函数f:x→y,x为原始数据点表达,y是数据点映射后的低维向量。映射函数可以是显示或隐式的、线性或非线性的。主成分分析PCA算法:SVD降维:奇异值分解(SVD)等价于PCA主成分分析。非线性降维方法:PCA基于线性降维,非线性处理方法有:核化线性降维(KPCA)、流形学习降维、多维缩放(MDS)降维、等度量映射降维(Isomp)、局部线性嵌入(LLE)...

2019-02-13 09:08:50 424

原创 机器学习笔记 K近邻(附Python与R代码)

K近邻算法原理:通过计算新数据和训练数据特征值之间的距离,然后选取K个距离最近的邻居进行分类判断(投票法)或者回归。特点:不具有显示的学习过程,直接预测。实际上式利用训练数据集对特征向量空间进行划分,并且作为其分类的“模型”。k值选择:k=1,称为最近邻算法。此时将训练集中与测试样本最近的点类别作为测试样本的分类。k较小,用较小的邻域中的训练实例进行预测。偏差较小,方差较大,对近邻的实...

2019-02-12 16:54:18 457

原创 机器学习笔记 贝叶斯分类器(附Python与R代码)

朴素贝叶斯算法原理:通过某对象的先验概率,利用贝叶斯公式计算出后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。主要特点:属性可以离散,也可以连续;数学基础扎实,分类效率稳定;对缺失和噪声数据不太敏感;属性如果不相关,分类效果很好;如果相关,则不低于决策树。学习模型:计算对象归属于某一类的后验概率,以此最大概率的类作为对象所属类。即待学习的是对象的后...

2019-02-12 14:05:57 2788

原创 机器学习笔记 线性模型

写在前面的一些废话伴随课程以及自习,学得既算系统也算零散。学校多统计,算法讲解几近寥寥。自古以来,统计系的教授多半乐于指摘机器学习与人工智能,但学科总又不得不与之挂钩密切,且多随其发展潮起潮落。内部纠纷,不足为外人道已。只有深受其纷杂概念困扰的学习者,感触颇深。不随时总结,建立知识库,实在容易迷失。对《利用PYTHON进行数据分析》重点章节粗略研习,绘制思维导图加深记忆,成效喜闻乐见。但考虑到...

2019-02-11 17:10:15 372

原创 利用Python进行数据分析:数据规整化——清理、转换、合并、重塑

2019-02-01 16:16:35 340

原创 利用Python进行数据分析:Pandas入门

2019-01-30 17:12:24 230

转载 修改操作系统分配给R的内存上限

memory.size(T)查看已分配内存memory.size(F)查看已使用内存memory.limit()查看内存上限object.size()看每个变量占多大内存。memory.size()查看现在的work space的内存使用memory.limit()查看系统规定的内存使用上限。如果现在的内存上限不够用,可以通过memory.limit(newLimit)更改到一个新的上限...

2018-11-06 09:36:33 10311

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除