PhoenixPeng-gxu-CSDN博客

原创 scikit-learn决策树类库函数介绍

本文是参考了刘建平老师的关于scikit-learn对应决策树算法类库函数的介绍以及《机器学习实战》中对决策树可视化代码的学习。有兴趣的可以多去仔细阅读。刘建平-scikit-learn决策树算法类库介绍因此在文章中，将学习如何使用决策树进行训练、可视化和做出预测开始。然后，外面将了解scikit-learn使用的CART训练算法。scikit-learn决策树算法类库内部实现是使用了调优过的CART树算法，即可以做分类，又可以做回归。分类决策树对应的是，而回归决策树的类对应的是。

2022-12-08 22:02:57 2337 1

原创《利用Python进行数据分析》第十章---数据聚合与分组操作2

根据上一篇文章对数据集的拆分-应用-联合，具体讲解了写拆分和联合用到的细则，这篇将围绕应用这块进行描述。以上就是今天要讲的内容，本文如何充分利用apply函数对数据集进行应用：通用拆分-应用-联合并且列举了相关的示例供参考，还学习了数据透视表和交叉表。精通pandas的数据分组工具既可以帮助我们清洗数据，也对建模或统计分析工作有益。

2022-11-16 21:03:02 585

原创《利用Python进行数据分析》第十章---数据聚合与分组操作1

对数据集进行分类，并在每一组上应用一个聚合函数或转换函数，这通常是数据分析工作流中的一个重要部分。在载入、合并、准备数据集之后，你可能需要计算分组统计或者数据透视表用于报告或可视化的目的。pandas提供一个灵活的groupby接口，允许你以一种自然发方式对数据集进行切片、切块和总结。我们通过Python和pandas的表达，我们可以使用pandas对象或NumPy数组执行相当复杂的组操作。使用一个或多个键（以函数、数组或DataFrame列名的形式）将pandas对象拆分为多块。

2022-11-14 22:59:19 899

原创 matplotlib绘图与可视化2

matplotlib是一个相当底层的工具。你可以从其基本组件中组装一个图表：数据显示（即绘图类型：线、条、框、散点图、轮廓等）、图例、标题、刻度标记和其他注释。上一节我们是使用NumPy创建的数据进行绘图，这一节我们将讲述使用pandas和seaborn进行绘图以上就是今天要讲的内容，本文仅仅简单介绍了如何绘制折线图、柱状图、直方图和密度图、散点图或点图、分面网格和分类数据。

2022-11-13 17:04:56 671

原创 matplotlib绘图与可视化1

制作提供信息的可视化是数据分析中最重要任务之一。可视化可能是探索过程的一部分，例如，帮助识别异常值或所需的数据转换，或者为建模提供一些想法。对于某些实验来说，构建网络交互式可视化可能是最终目标。因此本章节我们将注重关注matplotlib。以上就是今天要讲的内容，本文初步介绍了如何使用matplotlib库去绘制图片。介绍了pyplot的一些功能可以更加详细描述图片，除了plt.plot方法以外，我们还可以使用plt.subplot方法。然后讲到了对于图片如何去规定颜色、标记和线类型。

2022-11-10 18:19:55 652

原创《利用Python进行数据分析》第八章---数据规整：连接、联合与重塑2

这篇文章将介绍数据的重塑和透视操作。昨晚有和舍友讨论过，数据挖掘和数据分析是不是一回事。经过一顿概述学习，数据挖据与数据分析虽然有很多相似之处，但终究还是存在着一定的区别：1.数据分析讲究的是利用统计分析工具进行观察和处理数据，而数据挖掘是从数据中发现知识规则2.“数据分析”不能建立数学模型，需要人工建模，而“数据挖掘”直接完成了数学建模，可通过机器学习自动建立输入与输出的函数关系，根据知识规则得出的“规则”，给定一组输入参数，就可以得出一组输出量。

2022-11-03 12:05:43 236

原创《利用Python进行数据分析》第八章---数据规整：连接、联合与重塑1

在很多应用中，数据可能分布在多个文件或数据库中，抑或以某种不易于分析的格式进行排列。本章关注于对数据联合、连接以及重排列有用的工具。首先，将pandas中的分层索引的概念，这个概念在这些操作中被广泛使用。然后深入介绍特定的数据操作。分层索引允许你在一个轴向上拥有多个（两个或两个以上）索引层级。笼统地说，分层索引提供了一种在更低维度的形式中处理更高维度数据的方式。下面让我们从一个简单的例子开始，先创建一个Series，以列表的列表（或数组）作为索引：索引中的"间隙"表示“直接使用上面的标签”：通过分层索引

2022-11-03 09:26:33 320

原创《利用Python进行数据分析》第七章——数据清洗与准备3

由于Python在字符串和文本操作上的便利性，使得Python成为一个流行的原生数据集操作语言已经有很长时间了。字符串对象的内建方法使得大部分文本操作非常简单。但对于更为复杂的模式匹配和文本操作，正则表达式是可能需要的。pandas允许你将字符串和正则表达式简洁地应用到整个数组上，此外还能处理数据缺失带来的困扰。下面我们将介绍，Python内建字符串的方法、正则表达式以及向量化字符串函数。在很多字符串处理和脚本应用中，内建的字符串方法是足够的。例如，一个逗号分隔的字符串可以使用split方法拆分成多块：s

2022-10-25 23:07:20 449

原创《利用Python进行数据分析》第七章——数据清洗与准备2

在经过上文章对数据的缺失值进行过滤和补全，下面讲数据的一些转换，主要讲解数据的重新排列、过滤以及其他转换是另外一系列重要的操作。以上就是本章的内容，本文介绍了数据转换是所涉及到的内容，包括删除重复值、使用函数进行数据转换、替代值的处理、重命名轴索引、离散化和分箱、检测和过滤异常值、置换和随机抽样和计算指标/虚拟变量。内容还是比较多的，可以重复观看。

2022-10-24 21:41:31 1075 1

原创《利用Python进行数据分析》第七章——数据清洗与准备

在本章中，我将讨论用于缺失值、重复值、字符串操作和其他分析数据转换的工具。而这篇文章中主要介绍如何处理数据的缺失值。以上就是今天要讲的内容，本文仅仅简单介绍了pandas中处理缺失值的方式：过滤填充值和填充缺失值。除此之外还有能够处理缺失值的 isnull和notnull方法。下班！！！

2022-10-19 22:52:40 415

原创《利用Python进行数据分析》笔记记录第六章——数据载入、存储及文件格式的第二部分

接着上回我们将继续对文本输入输出进行学习。访问数据通常是数据分析过程的第一步。我们在本章已经学习了一些有用的工具，可以帮助入门。在后续章节中，我们将深入数据处理、数据可视化、时间序列分析和其他主题。

2022-10-15 12:29:49 446

原创《利用Python进行数据分析》笔记记录第六章——数据载入、存储及文件格式

在上几篇文章中简单的了解了NumPy，pandas如何构建数组以及对数组的一些基本操作。接下来也是进行下面的学习记录。访问数据是使用各类工具所必需的第一步。我们将重点关注使用pandas进行数据输入和输出。读取文本文件及硬盘上其他更高效的格式文件、从数据库载入数据、与网络资源进行交互（比如Web API）。下面将介绍文本文件的读取。例如：以上就是今天要讲的内容，本文介绍了如何使用各类工具去访问不同格式的文件数据。本文仅介绍了文本格式数据的读写常用的函数有read_csv和read_table。

2022-10-14 17:22:52 726

原创默默无名的西大研究生学习的第七天--pandas入门3

pandas对象装配了一个常用数学、统计学方法的集合。其中大部分属于归纳或汇总统计的类别，这些方法从DataFrame的行或列中抽取一个Series或一系列值的单个值（如总和或平均值）。与NumPy数组中的类似方法相比，它们内建了处理缺失值的功能。a 1.40 NaN方法描述axis归约轴，0为行向，1为列向skipna排除缺失值level如果轴是多层索引的，该参数可以缩减分组层级one btwo da 1.40 NaN方法描述count非NA值的个数describe。

2022-10-10 12:48:09 229

原创 pandas入门2--关于pandas的一些基本功能

本节会指引你了解与Series或DataFrame中数据交互的基础机制。reindex是pandas对象的重要方法，该方法用于创建一个符合新索引的新对象。Series调用reindex方法时，会将数据按照新的索引进行排列，如果某个索引值之前并不存在，则会引入缺失值：对于顺序数据，比如时间序列，在重建索引时可能会需要进行插值或者填值。method可选参数允许我们使用诸如ffill等方法在重建索引时插值，ffill方法会将值前向补充：在DataFrame中，reindex可以改变行索引、列索引，也可以同时

2022-10-09 16:37:56 180

lezerodead的博客

原创 scikit-learn决策树类库函数介绍

原创《利用Python进行数据分析》第十章---数据聚合与分组操作2

原创《利用Python进行数据分析》第十章---数据聚合与分组操作1

原创 matplotlib绘图与可视化2

原创 matplotlib绘图与可视化1

原创《利用Python进行数据分析》第八章---数据规整：连接、联合与重塑2

原创《利用Python进行数据分析》第八章---数据规整：连接、联合与重塑1

原创《利用Python进行数据分析》第七章——数据清洗与准备3

原创《利用Python进行数据分析》第七章——数据清洗与准备2

原创《利用Python进行数据分析》第七章——数据清洗与准备

原创《利用Python进行数据分析》笔记记录第六章——数据载入、存储及文件格式的第二部分

原创《利用Python进行数据分析》笔记记录第六章——数据载入、存储及文件格式

原创默默无名的西大研究生学习的第七天--pandas入门3

原创 pandas入门2--关于pandas的一些基本功能

原创 pandas入门1--数据结构

原创默默无名的西大研究生学习的第五天——NumPy基础5

原创默默无名的西大研究生学习的第四天——NumPy基础4

原创默默无名的西大研究生学习的第三天——NumPy基础3

原创默默无名的西大研究生学习的第二天——NumPy2

原创默默无名的西大研究生学习的第一天——NumPy基础1

空空如也

空空如也