(1)当打印dataframe的时候数据多可能pycharm 的控制台会显示不全,下面几行代码显示所有行和列:
#显示所有列
pd.set_option('display.max_columns', None)
#显示所有行
pd.set_option('display.max_rows', None)
#设置value的显示长度为100,默认为50
pd.set_option('max_colwidth', 100)
(2)在对数据进行清晰的时候会遇到,需要判断某几个关键字是否存在某个字符串里,这时候就用到python的内置函数any
key_word = ['房产', '数据', '分析', 'ETC', 'java', 'JAVA', '人工智能']
for index, row in data.iterrows():
#data是一个dataframe,这里就是对dataframe的一个遍历,index是每一行的索引,row是每一行(Series类型)
if any(word in row['position_name'] for word in key_word):
ss.append(row)
# 如果存在key_word里的任意一个字符串,在这一行的position_name里就把这一行放入列表
(3)把一堆的Series转化为pandas(虽然它有to_frame方法但是,用这个方法,它会默认把series的values当作一列,跟预期的结果不符),然而就需要先把Series放进list然后再把list转化为dataframe,这样一来运行速度也快很多。
key_word = ['房产', '数据', '分析', 'ETC', 'java', 'JAVA', '人工智能']
for index, row in data.iterrows():
try :
if any(word in row['position_name'] for word in key_word):
ss.append(row)
except Exception as e:
print(e)
df = pd.DataFrame(ss)