问题描述;
当使用dataframe执行如下操作:
df[df.line.str.contains('G')]
目的是:找出df中line列中包含字符’G’的所有行时,出现如下问题:
---------------------------------------------------------------------------
ValueError Traceback (most recent call last)
<ipython-input-3-10f8503f73f2> in <module>()
----> df.line.str.contains('G')
D:\Anaconda3\lib\site-packages\pandas\core\frame.py in __getitem__(self, key)
2983
2984 # Do we have a (boolean) 1d indexer?
-> 2985 if com.is_bool_indexer(key):
2986 return self._getitem_bool_array(key)
2987
D:\Anaconda3\lib\site-packages\pandas\core\common.py in is_bool_indexer(key)
128 if not lib.is_bool_array(key):
129 if isna(key).any():
--> 130 raise ValueError(na_msg)
131 return False
132 return True
ValueError: cannot index with vector containing NA / NaN values
很明显,意思是说line列中存在NA或者NaN值,因此百度呀,网上有大把教你怎么删除line列中包含NA/NaN值的方法。
但是,删除完line列中包含NA/NaN值的行,仍然解决不了问题!!怎么办呢?
解决方法:
很简单,其实很可能是line列中的元素格式不全是str格式,可能存在int格式等等,
因此只需把line列的格式统一成str格式就搞定了!
操作如下:
df['line'] = df['line'].apply(str) #把line列的格式全改为str
df[df.line.str.contains('G')] #执行你对应的语句
解决问题!!