Pandas快速入门
文章平均质量分 77
YYLin-AI
这个作者很懒,什么都没留下…
展开
-
Pandas入门之rolling滑动窗口
什么是滑窗?:什么是滑动(移动)窗口?为了提升数据的准确性,将某个点的取值扩大到包含这个点的一段区间,用区间来进行判断,这个区间就是窗口。举个例子,CCF乘用车销量预估比赛我们有一列属性关于每月的某种车型的新闻评论量,假设我的滑窗大小是3center设置为True的话,则意味着我用2016-9到2016-11三个月的均值取代2016-10对应的值。滑窗的具体操作:因为CSDN使用...原创 2019-11-19 17:18:43 · 5805 阅读 · 0 评论 -
Pandas入门第六章之时间序列
前言: 数据分析中经常会碰到和时间序列相关的数据集,所以本节主要介绍一下pandas中时间序列相关的接口,同上写的比较简单,如果想要学习这个模块的话参加一个比赛还是很必要的。等从新开始比赛的时候,在向这里面增加东西吧,pandas基础教程到此为止!!!!!!!!!!!!一般比赛中出现时间序列相关的数据时,对于时间序列的处理一般有三种方式。第一: 将时间序列作为索引,将数据集分成周末和...原创 2019-06-05 00:17:35 · 992 阅读 · 0 评论 -
Pandas入门第五章之数据的聚合和分组
前言: 本节介绍的数据的聚合和分组,在每个数据分析的比赛中都会使用的。但是再强调一遍我仅仅介绍一些基础的操作,如果你想要在这上面有些研究的话,一两个大型的数据分析相关的比赛肯定会对你有很大地帮助的。之前已经介绍了pandas中的两个常用的聚合函数merce() 和concat(), 所以本节主要介绍使用pandas进行数据的分组操作。首先介绍在数据清晰地时候介绍的,对数据进行分类之后,使...原创 2019-06-05 00:18:36 · 575 阅读 · 0 评论 -
Pandas入门第四章之使用pandas画图操作
在一个数据比赛中,通过画图分析数据的分布,这都是很重要的一部环节,本节主要介绍一下画图函数。内容非常简单,如果想要进一步学习的话,论文或者参加一个比赛都是很不错的学习方式。本节通过三个实例讲述如何画图函数第一个实例: 使用 matplotlib.pyplot 在同一张图上展示不同类型的图像,本段程序应该注意的几个特点第一: 画图前首先定义一个plt.figure()对象,如果需要在...原创 2019-06-05 00:19:09 · 4702 阅读 · 0 评论 -
Pandas入门第三章之数据拼接操作
本节主要讲解pandas中的两种数据拼接操作,第一pd.merge()横向连接和pd.concat()纵向连接。还是那句话,我这只是简单地介绍一下,如果想要熟练掌握,参加一两个比赛还是必要的。介绍pd.merge()函数的时候主要从两个方面介绍一下:第一:merge()中如何根据特定的列合并数据,默认的时候merge()函数对数据进行合并的步骤如下:1、首先是直...原创 2019-06-05 00:19:20 · 1697 阅读 · 0 评论 -
Pandas入门第二章之数据清洗之数据变化
前言: 本节介绍主要介绍三个东西,第一重复值得删除,第二数据的映射,第三数据的离散化和分箱、第四如何发现并处理异常值。切记这里讲的比较简单,如果想要熟练使用pandas的话,参加几个比赛还是必要的。数据清洗之删除重复值,使用drop_duplicates()的时候注意两个特点第一: drop_duplicates()并不直接修改原始数据,所以想要修改原始数据需要使用 ...原创 2019-06-05 00:19:56 · 274 阅读 · 0 评论 -
Pandas入门第二章之数据清洗之如何处理缺失值
前言: 前面两章介绍了pandas的基本格式、以及简单的数据读取。在本节之中主要介绍一下pandas中如何进行数据清洗的。和之前一样仅仅是介绍一下pandas中基本的数据清洗的方法。如果想要真正的精通pandas的话,肯定是要一个具体的比赛。okay开始本节的学习吧。本节主要介绍的内容有: 如何处理缺失数据1、直接删除缺失数据使用dropna()删除数据记录中含有np.nan的数...原创 2019-06-05 00:19:00 · 903 阅读 · 0 评论 -
Pandas入门第二章之数据的读取
本节主要介绍pandas经常读取的两种数据格式,其分别是CSV和JSON本节使用两个数据集分别是2019腾讯算法大赛和中国AI创新创业大赛的数据集.没有标签的原始数据的格式带标题的数据格式本节在介绍pandas读取CSV文件的时候,主要分成两个部分:第一、读取小文件时应该要注意的几种情况,1、数据集中是否有标签信息。 2、读取指定列的数据 和行的数据记录、3原始数据集中没有列名的时候...原创 2019-06-05 00:17:51 · 5702 阅读 · 0 评论 -
Pandas入门第一章之apply()数据转化和sort()排序
同上本节主要介绍pandas两个基本功能,排序和映射,写这个的目的只是简单的记录一下我的理解,其中肯定会有错误或者不全面看的时候要注意一下。第一: 本节介绍的排序操作是指,根据原始数据中某列数据中值的大小重新调整每行记录第二: 本节介绍的映射是指: 对于数据集中某列施加一个函数之后, 将其转化到另一个数据之中比赛时排序这个功能主要和时间序列相关,所以在这使用的例子的所以设置为...原创 2019-06-05 00:17:28 · 1516 阅读 · 0 评论 -
Pandas入门第一章之Series和DataFrame
前言: 本人研究方向是图像生成这个模块,所以编程语言一直使用的是python。 研一下半学期参加腾讯比赛,深感在数据清洗中pandas中的各种库函数的便捷性,所以简单记录了一下自己对pandas中各种函数的理解,方便下次比赛的时候能够直接使用。因为只是个人简单的理解,所以难免会有些问题,所以仅供参考。本节主要介绍pandas中两种数据格式:Series 和 DataFrameSe...原创 2019-06-05 00:16:14 · 5049 阅读 · 0 评论 -
Pandas快速入门之第二节将时间戳和真实时间的转化
前言: 本节主要介绍两个部分,第一个部分是介绍如何使用python将时间戳转化成我们需要的时间格式,第二个部分讲解在csv文件中如何根据已有时间信息,统计每天内每个广告数据出现的次数。相关函数讲解1: 如何使用python将时间戳转化成我们需要的时间格式, 直接使用封装好的time.localtime()即可, time.localtime()输入的为整数类型...原创 2019-05-24 11:44:35 · 4433 阅读 · 0 评论 -
Pandas快速入门之第一节数据的读取和保存
前言:前几天参加腾讯算法大赛,深感在数据处理时pandas的中各种包的强大,所以简单的记录一下Pandas中的几个库。这一节主要介绍pandas中的数据读取和保存相关的函数,分别是read_csv() 和 to_csv() 。to_csv()函数讲解:第一个参数表示将要保存的数据文件,第二个参数表示保存数据时要不要加上行索引,默认为True第三个参数表示是否加入标题,默认为Tr...原创 2019-05-24 10:01:19 · 1192 阅读 · 0 评论 -
Pandas快速入门之第三节使用pandas去重、合并、已经统计出现次数
前言: 本节主要参考的连接有,https://blog.csdn.net/brucewong0516/article/details/82707492 本节主要介绍如何使用pandas去重、合并、以及根据规则统计出现数据出现的次数,其主要包括三个函数:drop_duplicates()、merge() 、groupby() 。1、dro...原创 2019-05-24 17:21:35 · 11712 阅读 · 2 评论