
pandas
文章平均质量分 50
中南自动化学院至渝
好记性不如烂笔头,多写写
展开
-
处理pandas吧整数读取成了字符串
背景 在处理下载后的数据,由于下载的格式不统一,导致难以进行,原始数据如下 问题 用 如下代码读取,但是第一列莫名其妙了字符串import pandas as pddata = pd.read_c原创 2021-11-12 09:45:14 · 22833 阅读 · 0 评论 -
Python pandas库里面pd.read_csv()函数中parse_dates()参数作用
read_csv()函数官方文档,遇事不决找官网作用 一句话:将某一列解析为时间索引。这个某一列是你自己指定的, 时间索引跟时间戳关系比较大,主要就是为了能使用一些时间索引的属性方法简便我们的原创 2021-03-08 09:07:25 · 29601 阅读 · 0 评论 -
用均值填充缺失值
假设数据已经通过如下代码读进来了import pandas as pdtitanic_data = pd.read_csv('titanic_data.csv',encoding = 'gbk') 均值填充for column in list(titanic_data.columns[titanic_data.isnull().sum() > 0]): mean_val原创 2020-10-16 21:48:44 · 28103 阅读 · 2 评论 -
pandas数据处理 把性别(sex)里面的 male 用 1 代替,female 用 0 代替
假设数据已经通过如下代码读进来了import pandas as pdtitanic_data = pd.read_csv('titanic_data.csv',encoding = 'gbk')法1titanic_data['Sex'][titanic_data['Sex'] == 'male'] = 1titanic_data['Sex'][titanic_data['Sex'] == 'female'] = 0法2titanic_data.replace('male',1,inpl原创 2020-10-16 21:38:15 · 39711 阅读 · 1 评论 -
pands 返回某一列出现次数最多的元素(即返回 value_counts() 统计个数后 series 结构中的最大值对应的索引)
业务场景:招聘数据探索分析1、读取数据并存为一个名叫job_info的据框。2、将列命名为:['公司’,’岗位’,’工作地点’,’工资’,’发布日期]。3、哪个岗位招聘需求最多?4、取出9月3日发布的招聘信息。5、找出工作地点在深圳的数据分析师招聘信息。 第三问哪个岗位招聘需求最多?首先用value_counts() 统计岗位这一列每个元素出现的个数,返回结果是Series &原创 2020-10-11 12:25:50 · 34607 阅读 · 1 评论 -
pandas 取出同时满足多个要求的数据 (即按若干个列的组合条件筛选数据)
核心代码 data = pd.DataFrame[(条件1) & (条件2).......]import pandas as pdjob_info = pd.read_csv('job_info.csv',header=None,names=('公司','岗位','工作地点','工资','发布日期原创 2020-10-10 22:18:02 · 29929 阅读 · 0 评论