【解决str.contains()问题】ValueError: cannot index with vector containing NA / NaN values

最新推荐文章于 2024-04-01 14:46:59 发布

PigOrz

最新推荐文章于 2024-04-01 14:46:59 发布

阅读量6.3k

点赞数 12

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/qq_33731081/article/details/103844652

版权

python 专栏收录该内容

6 篇文章

订阅专栏

问题描述;
当使用dataframe执行如下操作：

df[df.line.str.contains('G')]

目的是：找出df中line列中包含字符’G’的所有行时，出现如下问题：

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-3-10f8503f73f2> in <module>()
---->  df.line.str.contains('G')

D:\Anaconda3\lib\site-packages\pandas\core\frame.py in __getitem__(self, key)
   2983 
   2984         # Do we have a (boolean) 1d indexer?
-> 2985         if com.is_bool_indexer(key):
   2986             return self._getitem_bool_array(key)
   2987 

D:\Anaconda3\lib\site-packages\pandas\core\common.py in is_bool_indexer(key)
    128             if not lib.is_bool_array(key):
    129                 if isna(key).any():
--> 130                     raise ValueError(na_msg)
    131                 return False
    132             return True

ValueError: cannot index with vector containing NA / NaN values

很明显，意思是说line列中存在NA或者NaN值，因此百度呀，网上有大把教你怎么删除line列中包含NA/NaN值的方法。

但是，删除完line列中包含NA/NaN值的行，仍然解决不了问题！！怎么办呢？

解决方法：
很简单，其实很可能是line列中的元素格式不全是str格式，可能存在int格式等等，
因此只需把line列的格式统一成str格式就搞定了！
操作如下：

df['line'] = df['line'].apply(str) #把line列的格式全改为str

df[df.line.str.contains('G')] #执行你对应的语句

解决问题！！