自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 pandas的groupby、pivot_table和crosstab

1. 起因利用python的pandas库进行数据分组分析十分便捷,其中应用最多的方法包括:groupby、pivot_table及crosstab,以下分别进行介绍。2. 详解首先构造数据import numpy as npimport pandas as pddf = pd.DataFrame({'key1':['a','a','b','b','a'],'key2':['...

2019-04-03 16:57:34 440

原创 数据处理的归一化 (Normalization)、标准化 (Standardization)和中心化/零均值化 (Zero-centered)

1 概念  归一化:1)把数据变成(0,1)或者(1,1)之间的小数。主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速。2)把有量纲表达式变成无量纲表达式,便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式,即将有量纲的表达式,经过变换,化为无量纲的表达式,成为纯量。  标准化:在机器学习中,我们可能要处理不同种类的资料,例如,音讯和图片上的像素...

2019-04-03 10:50:41 1260

转载 简单理解逻辑回归

前两天看到一个学习逻辑回归的好文章,适合小白们阅读。https://blog.csdn.net/weixin_39445556/article/details/83930186

2019-04-01 18:20:32 233

原创 KNN算法小结

KNN(k-NearestNeighbor)K最邻近分类算法。最简单的机器学习算法之一。KNN是用于对于区域或者重叠较多的样本分类,判断该样本属于哪一类 思路:如果一个样本在特征空间中的K个最喜相似(即特征空间中最相邻)的样本中的大多数属于某一类,则该样本也属于这个类别。其中所选择的的邻居都是都是已经正确分类的对象。该方法的在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分类样本所属的类...

2019-03-21 14:33:52 282

原创 K-Means小结

无监督学习的聚类算法,给多个点,给这些点分为k个类别。属于无监督学习。和KNN不一样,KNN是有监督学习,根据已存在的多个类别,判断样本属于哪一类(距离哪个已存在的类别近)。 思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,知道得到最好的聚类结果 算法描述(算法实现过程)选择c个类的初始中心,随便选 在第k次迭代中...

2019-03-21 14:32:56 178

转载 python十大可视化常用包

浏览一下Python程序库目录你会发现无论要画什么图,都能找到相对的库——从适用于眼球移动研究的GazeParser,到用于可视化实时神经网络训练过程的pastalog。有许多库只完成非常特定的任务,也有许多可以用于更广泛的领域。今天我们会介绍一下10个适用于多个学科的Python数据可视化库,其中有名气很大的也有鲜为人知的。在这里我们提醒一下大家如果想轻松的在本地运行Python,可以使用M...

2019-01-18 11:12:30 5801

原创 python的多线程与单线程的效率问题

先了解下CPU的简单运行原理:  它运行速度非常快,1s内可以运行成千上万次,一个核心可以把1s切分成成千上万个时间片段,这个核心确实同时只能运行一个任务;但是可以将多个任务交替执行,比如上一个时间片段内运行A任务,下个时间片段可以运行B任务,交替执行,因为时间片段很短,所以感觉就是同时在进行了。  再了解下单线程和多线程的区别:  先看下单进程,顾名思义,就是一条进程,类似于单向公路...

2018-11-01 15:54:29 3263 1

原创 机器学习入门之---KNN算法

最近在看《机器学习实战》这本书,因为自己本身很想深入的了解机器学习算法,加之想学python,就在朋友的推荐之下选择了这本书进行学习。 一 . K-近邻算法(KNN)概述     最简单最初级的分类器是将全部的训练数据所对应的类别都记录下来,当测试对象的属性和某个训练对象的属性完全匹配时,便可以对其进行分类。但是怎么可能所有测试对象都会找到与之完全匹配的训练对象呢,其次就是存在一个测试对象...

2018-10-10 10:50:59 187

转载 linux查看目录大小 linux统计目录大小并排序 查看目录下所有一级子目录文件夹大小 du -h --max-depth=1 |grep []

常用命令 du -h --max-depth=1 |grep [TG] |sort   #查找上G和T的目录并排序 du -sh    #统计当前目录的大小,以直观方式展现du -h --max-depth=1 |grep 'G' |sort   #查看上G目录并排序du -sh --max-depth=1  #查看当前目录下所有一级子目录文件夹大小du -h --max-de...

2018-08-03 15:21:32 1767

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除