文章来源:towardsdatascience 作者:B.Chen 翻译\编辑:Python大数据分析
pandas是python中常用的数据分析库,出现频率非常高,而且pandas功能之多让人咋舌,即使pandas老手也没法保证能高效使用pandas做数据分析。
这篇文章目的梳理几个高效实用的pandas小技巧,供大家参考。
1. 从剪切板中创建DataFrame
pandas中的read_clipboard()
方法非常神奇,可以把剪切板中的数据变成dataframe格式,也就是说直接在excel中复制表格,可以快速转化为dataframe。
以下面这个excel数据表为例,全部选中,按ctrl+c复制:
然后在python中执行pd.read_clipboard()
,就能得到一模一样的dataframe数据表:
pd.read_clipboard()
![f4447db0fea3e0b3a8ddcef868515832.png](https://i-blog.csdnimg.cn/blog_migrate/e485efd3e6c00e59afbc7e6fafc203a6.png)
这功能对经常在excel和python中切换的分析师来说简直是福音,excel中的数据能一键转化为pandas可读格式。
2. 通过数据类型选择columns
数据分析过程可能会需要筛选数据列,比如只需要数值列,以经典的泰坦尼克数据集为例:
import seaborn as sns
# 导出泰坦尼克数据集
df = sns.load_dataset('titanic')
df.head()
![524a4974abd9c00517c93d4449cae67b.png](https://i-blog.csdnimg.cn/blog_migrate/230f435c0126fd15741b16c2fb71ef23.png)
查看该数据集各列的数据类型:
df.dtypes
![ddfc8eda8d804190a5303145bfed8275.png](https://i-blog.csdnimg.cn/blog_migrate/f5cb7019096957e3f597ea5c95969787.png)
可以看到各列的数据类型不太一样,有int、object、float、bool
等。
如果说我只要需要数值列,也就是数据类型为int、float
的列,可以通过select_dtypes
方法实现:
df.select_dtypes(include='number').head()
![7cccf84d75a82bf24dd9515bd29e2f58.png](https://i-blog.csdnimg.cn/blog_migrate/3e6e19864b8f58212746221a83920c67.png)
选择除数据类型为int
外其他的列,注意这里的参数是exclude
:</