![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pandas
blerli
程序就是生活,生活就是程序。
展开
-
python pandas的一些操作
现在网上的数据集一般都是csv文件形式的;这里就以csv文件为例进行操作:首先读取csv文件:import pandas as pdhouse_info = pd.read_csv('house_info.csv')2:怎样查看csv文件里面都有哪些类型的数据:print(house_info.dtypes)注意一点就是pandas的string类型的数是object类型的数;3:常用的读文件的操...原创 2018-07-09 21:24:20 · 253 阅读 · 0 评论 -
在pandas中遍历DataFrame行
在pandas中遍历DataFrame行2018年02月22日 21:54:05ls13552912394阅读数:52069有如下 Pandas DataFrame: import pandas as pd inp = [{'c1':10, 'c2':100}, {'c1':11,'c2':110}, {'c1':12,'c2':120}] df =...转载 2019-03-14 10:06:01 · 204 阅读 · 0 评论 -
pandas read_html
这个能够直接读取网页中的table返回一个列表应为一个网页中不止有一个table,然后通过遍历出每一个表,然后通过pd.DataFrame就可以将表转化成DataFrame的格式的数据;然后可以直接存储成为csv文件了;例子:data = pd.read_html('./US_State_StateCode_Map.html')# print(data)# print...原创 2019-01-09 13:56:48 · 3516 阅读 · 0 评论 -
ValueError: invalid literal for int() with base 10: '-79.3805814'
需要将astype(int) 改成astype(float)原创 2018-12-20 09:51:25 · 754 阅读 · 0 评论 -
pandas 去除重复行
方法DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)1参数这个drop_duplicate方法是对DataFrame格式的数据,去除特定列下面的重复行。返回DataFrame格式的数据。subset : column label or sequence of labels, optional 用来指...转载 2018-12-13 17:36:54 · 2728 阅读 · 0 评论 -
解决python - Writing to MySQL database with pandas using SQLAlchemy, to_sql
这里需要重新创建一个连接引擎,用sqlalchemyfrom sqlalchemy import create_engine # 重要就是这个,因为默认的sqllite被遗弃了;import pandas as pdimport numpy as np连接数据库engine = create_engine('postgresql://rolename@localhost:5432/d...转载 2018-12-03 15:41:52 · 189 阅读 · 0 评论 -
pandas 将字符数据转化成小写
Series.str.lower()也就是用Series来使用str再使用lower;原创 2018-11-09 10:00:59 · 8656 阅读 · 0 评论 -
pandas 将DataFrame转化成dict
直接转换就行了,key为DataFrame的column;import pandas as pddata = pd.read_csv('./input/month_6_1.csv')print(data.head())data_dict = dict(data)# print(data_dict)print(data_dict.keys())print(type(data_d...原创 2018-10-22 15:36:22 · 11426 阅读 · 0 评论 -
pandas 的数据处理方法
1:导入pandas包import pandas as pd2:读入数据:pd.read_csv(filepath,[param])3:查看数据的前五行:pd.head()pd.tail():查看尾5行4:查看数据的一些情况:series.describe();对一列进行统计;5:删除列:pd.drop(columns,inplace) columns 接受一个列表...原创 2018-10-22 15:28:42 · 175 阅读 · 0 评论 -
数据预处理案例
最近在做数据处理的一些事情,写一下自己的一些处理方式,可能会比较low,我这份数据是关于售卖房屋的方面的数据:从数据库转存的csv文件,有三百多列,也就是有300多个特征,并且数据的缺失值特别严重,拿到这样一份残缺不全的数据我也是很苦恼,先看一下我的处理方式,我进行数据处理用的是pandas库,大致浏览了一下数据,缺失很多,首先我们需要先统计出每一列的缺失情况,1:由于我的数据最终是要用于去训练模...原创 2018-07-14 21:56:59 · 5386 阅读 · 1 评论 -
pandas Series
从实际意义上说pandas的DataFrame结构是一个矩阵,但是他又不是矩阵,DataFrame 和Series,Series其实是DataFrame的一列数据,多个Series组成了一个DateFrame结构;通过Series可以给一列中的某一个值指定一个索引:如:series_custom= Series(price.value,index=house_info['province'].va...原创 2018-07-10 19:28:20 · 155 阅读 · 0 评论 -
pandas 自定义函数
虽然说pandas里面确实有很多内置的函数了,但是也不可能满足所有的需求,所以有些时候我们也需要自己定义一些函数来满足自己的需求:那么该如何定义呢:定义之后又该如何用呢:对于函数的定义就很简单了,python自定义函数一样,但是在使用他的时候就需要用到apply了:如:算出每一列空值的个数:def null_count(column): column_null = pd.isnull(col...原创 2018-07-10 19:17:37 · 1931 阅读 · 0 评论 -
python pandas 做数据预处理
1:对于na数据的操作; 1):dropna() 2):fillna() #可以用均值,众数,中位数填充2:统计关联到某一列原创 2018-07-10 18:58:53 · 287 阅读 · 0 评论 -
pandas获取指定的列和行
house_info = pd.read_csv('house_info.csv')1:取行的操作:house_info.loc[3:6]类似于python的切片操作2:取列操作:house_info['price'] 这是读取csv文件时默认的第一行索引3:取两列house_info[['price',tradetypename']] 取多个列也是同理的,注意里面是一个list的列表,不然会报...原创 2018-07-09 21:42:09 · 174864 阅读 · 3 评论 -
pandas data.values
data = pd.DataFrame()data[key] 类型是pandas的series 类型的数据;而data[key].values 类型是numpy 的ndarray类型的数据;关于pandas数据的遍历:可以使用data.iterrows() 每一行是一个tuple 类似与数据库查询出的每一条结果;data.itemtuple...原创 2019-03-14 10:12:11 · 14291 阅读 · 0 评论