自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 scikit-learn决策树类库函数介绍

本文是参考了刘建平老师的关于scikit-learn对应决策树算法类库函数的介绍以及《机器学习实战》中对决策树可视化代码的学习。有兴趣的可以多去仔细阅读。刘建平-scikit-learn决策树算法类库介绍因此在文章中,将学习如何使用决策树进行训练、可视化和做出预测开始。然后,外面将了解scikit-learn使用的CART训练算法。scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法,即可以做分类,又可以做回归。分类决策树对应的是,而回归决策树的类对应的是。

2022-12-08 22:02:57 2299 1

原创 《利用Python进行数据分析》第十章---数据聚合与分组操作2

根据上一篇文章对数据集的拆分-应用-联合,具体讲解了写拆分和联合用到的细则,这篇将围绕应用这块进行描述。以上就是今天要讲的内容,本文如何充分利用apply函数对数据集进行应用:通用拆分-应用-联合并且列举了相关的示例供参考,还学习了数据透视表和交叉表。精通pandas的数据分组工具既可以帮助我们清洗数据,也对建模或统计分析工作有益。

2022-11-16 21:03:02 569

原创 《利用Python进行数据分析》第十章---数据聚合与分组操作1

对数据集进行分类,并在每一组上应用一个聚合函数或转换函数,这通常是数据分析工作流中的一个重要部分。在载入、合并、准备数据集之后,你可能需要计算分组统计或者数据透视表用于报告或可视化的目的。pandas提供一个灵活的groupby接口,允许你以一种自然发方式对数据集进行切片、切块和总结。我们通过Python和pandas的表达,我们可以使用pandas对象或NumPy数组执行相当复杂的组操作。使用一个或多个键(以函数、数组或DataFrame列名的形式)将pandas对象拆分为多块。

2022-11-14 22:59:19 877

原创 matplotlib绘图与可视化2

matplotlib是一个相当底层的工具。你可以从其基本组件中组装一个图表:数据显示(即绘图类型:线、条、框、散点图、轮廓等)、图例、标题、刻度标记和其他注释。上一节我们是使用NumPy创建的数据进行绘图,这一节我们将讲述使用pandas和seaborn进行绘图以上就是今天要讲的内容,本文仅仅简单介绍了如何绘制折线图、柱状图、直方图和密度图、散点图或点图、分面网格和分类数据。

2022-11-13 17:04:56 661

原创 matplotlib绘图与可视化1

制作提供信息的可视化是数据分析中最重要任务之一。可视化可能是探索过程的一部分,例如,帮助识别异常值或所需的数据转换,或者为建模提供一些想法。对于某些实验来说,构建网络交互式可视化可能是最终目标。因此本章节我们将注重关注matplotlib。以上就是今天要讲的内容,本文初步介绍了如何使用matplotlib库去绘制图片。介绍了pyplot的一些功能可以更加详细描述图片,除了plt.plot方法以外,我们还可以使用plt.subplot方法。然后讲到了对于图片如何去规定颜色、标记和线类型。

2022-11-10 18:19:55 645

原创 《利用Python进行数据分析》第八章---数据规整:连接、联合与重塑2

这篇文章将介绍数据的重塑和透视操作。昨晚有和舍友讨论过,数据挖掘和数据分析是不是一回事。经过一顿概述学习,数据挖据与数据分析虽然有很多相似之处,但终究还是存在着一定的区别:1.数据分析讲究的是利用统计分析工具进行观察和处理数据,而数据挖掘是从数据中发现知识规则2.“数据分析”不能建立数学模型,需要人工建模,而“数据挖掘”直接完成了数学建模,可通过机器学习自动建立输入与输出的函数关系,根据知识规则得出的“规则”,给定一组输入参数,就可以得出一组输出量。

2022-11-03 12:05:43 229

原创 《利用Python进行数据分析》第八章---数据规整:连接、联合与重塑1

在很多应用中,数据可能分布在多个文件或数据库中,抑或以某种不易于分析的格式进行排列。本章关注于对数据联合、连接以及重排列有用的工具。首先,将pandas中的分层索引的概念,这个概念在这些操作中被广泛使用。然后深入介绍特定的数据操作。分层索引允许你在一个轴向上拥有多个(两个或两个以上)索引层级。笼统地说,分层索引提供了一种在更低维度的形式中处理更高维度数据的方式。下面让我们从一个简单的例子开始,先创建一个Series,以列表的列表(或数组)作为索引:索引中的"间隙"表示“直接使用上面的标签”:通过分层索引

2022-11-03 09:26:33 311

原创 《利用Python进行数据分析》第七章——数据清洗与准备3

由于Python在字符串和文本操作上的便利性,使得Python成为一个流行的原生数据集操作语言已经有很长时间了。字符串对象的内建方法使得大部分文本操作非常简单。但对于更为复杂的模式匹配和文本操作,正则表达式是可能需要的。pandas允许你将字符串和正则表达式简洁地应用到整个数组上,此外还能处理数据缺失带来的困扰。下面我们将介绍,Python内建字符串的方法、正则表达式以及向量化字符串函数。在很多字符串处理和脚本应用中,内建的字符串方法是足够的。例如,一个逗号分隔的字符串可以使用split方法拆分成多块:s

2022-10-25 23:07:20 436

原创 《利用Python进行数据分析》第七章——数据清洗与准备2

在经过上文章对数据的缺失值进行过滤和补全,下面讲数据的一些转换,主要讲解数据的重新排列、过滤以及其他转换是另外一系列重要的操作。以上就是本章的内容,本文介绍了数据转换是所涉及到的内容,包括删除重复值、使用函数进行数据转换、替代值的处理、重命名轴索引、离散化和分箱、检测和过滤异常值、置换和随机抽样和计算指标/虚拟变量。内容还是比较多的,可以重复观看。

2022-10-24 21:41:31 1062 1

原创 《利用Python进行数据分析》第七章——数据清洗与准备

在本章中,我将讨论用于缺失值、重复值、字符串操作和其他分析数据转换的工具。而这篇文章中主要介绍如何处理数据的缺失值。以上就是今天要讲的内容,本文仅仅简单介绍了pandas中处理缺失值的方式:过滤填充值和填充缺失值。除此之外还有能够处理缺失值的 isnull和notnull方法。下班!!!

2022-10-19 22:52:40 406

原创 《利用Python进行数据分析》笔记记录第六章——数据载入、存储及文件格式的第二部分

接着上回我们将继续对文本输入输出进行学习。访问数据通常是数据分析过程的第一步。我们在本章已经学习了一些有用的工具,可以帮助入门。在后续章节中,我们将深入数据处理、数据可视化、时间序列分析和其他主题。

2022-10-15 12:29:49 433

原创 《利用Python进行数据分析》笔记记录第六章——数据载入、存储及文件格式

在上几篇文章中简单的了解了NumPy,pandas如何构建数组以及对数组的一些基本操作。接下来也是进行下面的学习记录。访问数据是使用各类工具所必需的第一步。我们将重点关注使用pandas进行数据输入和输出。读取文本文件及硬盘上其他更高效的格式文件、从数据库载入数据、与网络资源进行交互(比如Web API)。下面将介绍文本文件的读取。例如:以上就是今天要讲的内容,本文介绍了如何使用各类工具去访问不同格式的文件数据。本文仅介绍了文本格式数据的读写常用的函数有read_csv和read_table。

2022-10-14 17:22:52 654

原创 默默无名的西大研究生学习的第七天--pandas入门3

pandas对象装配了一个常用数学、统计学方法的集合。其中大部分属于归纳或汇总统计的类别,这些方法从DataFrame的行或列中抽取一个Series或一系列值的单个值(如总和或平均值)。与NumPy数组中的类似方法相比,它们内建了处理缺失值的功能。a 1.40 NaN方法描述axis归约轴,0为行向,1为列向skipna排除缺失值level如果轴是多层索引的,该参数可以缩减分组层级one btwo da 1.40 NaN方法描述count非NA值的个数describe。

2022-10-10 12:48:09 218

原创 pandas入门2--关于pandas的一些基本功能

本节会指引你了解与Series或DataFrame中数据交互的基础机制。reindex是pandas对象的重要方法,该方法用于创建一个符合新索引的新对象。Series调用reindex方法时,会将数据按照新的索引进行排列,如果某个索引值之前并不存在,则会引入缺失值:对于顺序数据,比如时间序列,在重建索引时可能会需要进行插值或者填值。method可选参数允许我们使用诸如ffill等方法在重建索引时插值,ffill方法会将值前向补充:在DataFrame中,reindex可以改变行索引、列索引,也可以同时

2022-10-09 16:37:56 168

原创 pandas入门1--数据结构

pandas所包含的数据结构和数据处理工具的设计使得在Python中进行数据清洗和分析非常快捷。pandas支持大部分NumPy语言风格的数组计算,尤其是数组函数以及没有for循环的各种数据处理。尽管pandas采用了很多NumPy的代码风格,但最大的不同在于pandas是用来处理表格型或异质型数据的。而NumPy则相反,它更适合处理同质型的数值类数组数据。pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。

2022-10-05 17:22:42 246

原创 默默无名的西大研究生学习的第五天——NumPy基础5

这一天是对NumPy的学习最后一天的学习,之后就暂一告落了。后面还是有更详细的一定会更新在这上面。

2022-09-30 12:12:35 330

原创 默默无名的西大研究生学习的第四天——NumPy基础4

像mean、sum等函数可以接收一个可选参数axis,这个参数可以用于计算给定轴向上的统计值,形成一个下降一维度的数组。假设我们有一个布尔值数组和两个数值数组.假设我们要实现cond中的元素为True时,我们取xarr中的对应元素值,否则取yarr中的元素。通常,向量化的数组操作会比纯Python的等价实现在速度上快一到两个数量级(甚至更多),这对所有种类的数值计算会产生最大的影响。基础数组统计方法如下表所示。这里是对原数组按位置排序,而顶层的np.sort方法返回的是已经排序好的数组拷贝。

2022-09-28 22:56:01 346

原创 默默无名的西大研究生学习的第三天——NumPy基础3

再接上回,我们对索引再进一步学习。

2022-09-27 23:00:39 278

原创 默默无名的西大研究生学习的第二天——NumPy2

接着上一篇文章对NumPy的N维数组ndarray的一些知识点再进行更进一步的学习与记录。提示:以下是本篇文章正文内容,下面案例可供参考。

2022-09-26 21:27:41 335

原创 默默无名的西大研究生学习的第一天——NumPy基础1

NumPy本身并不提供建模和科学函数,理解NumPy的数组以及基于数组的计算将帮助你更高效地使用基于数组的工具。

2022-09-26 11:38:55 73

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除