pandas 空字符串与na区别_防止熊猫将字符串中的“ NA”解释为NaN

最新推荐文章于 2024-03-21 17:00:34 发布

weixin_39633165

最新推荐文章于 2024-03-21 17:00:34 发布

阅读量513

点赞数

文章标签： pandas 空字符串与na区别

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39633165/article/details/111492308

版权

熊猫的read_csv()方法将'NA'解释为nan(不是数字)，而不是有效的字符串。

在下面的简单情况下，请注意，第1行第2列(基于零的计数)的输出为'nan'而不是'NA'。

sample.tsv(制表符分隔)

PDB CHAIN SP_PRIMARY RES_BEG RES_END PDB_BEG PDB_END SP_BEG SP_END

5d8b N P60490 1146 1146 1146年

5d8b不适用P80377 1 126 1 126 1 126

5d8b O P60491 1118 1118 1118

read_sample.py

import pandas as pd

df = pd.read_csv(

'sample.tsv',

sep='\t',

encoding='utf-8',

)

for df_tuples in df.itertuples(index=True):

print(df_tuples)

输出

(0，拥抱，拥抱，腋下0490，1，146，1，146，1，146)

(1，u'5d8b'，u u'P80377'，1，126，1，126，1，126)

(2，u'5d8b'，u'O'，u'P60491'，1，118，1，118，1，118)

附加信息

用'CHAIN'列中的数据引号重写文件，然后使用quotechar参数quotechar='\''具有相同的结果。并通过dtype参数dtype=dict(valid_cols)传递类型的字典不会更改结果。

防止read_csv中的熊猫自动推断类型的旧答案建议首先使用numpy记录数组来解析文件，但是鉴于现在可以指定列dtypes，因此不必这样做。

请注意，按照iterrows文档中的描述，itertuples()用于保留dtype：“要在迭代行时保留dtype，最好使用itertuples()返回值的元组，并且通常在迭代时更快。”

该示例已在Python 2和3上使用pandas版本0.16.2、0.17.0和0.17.1进行了测试。

有没有办法捕获有效的字符串'NA'而不是将其转换为nan？

weixin_39633165

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
pandas 空字符串与na区别_防止熊猫将字符串中的“ NA”解释为NaN

熊猫的read_csv()方法将'NA'解释为nan(不是数字)，而不是有效的字符串。在下面的简单情况下，请注意，第1行第2列(基于零的计数)的输出为'nan'而不是'NA'。sample.tsv(制表符分隔)PDB CHAIN SP_PRIMARY RES_BEG RES_END PDB_BEG PDB_END SP_BEG SP_END5d8b N P60490 1146 1146 1146年...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。