python中的pd进行数据处理

置顶江水居士

已于 2023-04-02 18:08:44 修改

阅读量1.4w

点赞数 5

分类专栏： python 文章标签： python 列表数据处理

于 2020-08-12 12:06:44 首次发布

本文链接：https://blog.csdn.net/qq_35557718/article/details/107954297

版权

python 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

1、用pd读取excel中的的某一列生成列表，并将集合或列表写进excel

def excel_one_line_to_list():
    df = pd.read_excel(r"poi_grid.xlsx",usecols=[1],
                       names=None)  # 读取项目名称列,不要列名
    df_li = df.values.tolist()
    # print(df_li)
    result = []
    for s_li in df_li:
        result.append(s_li[0])
    print(result)
    res = set(result)
    r = list(res)
    c = {'result':r}
    data = pd.DataFrame(c)
    pd.DataFrame(data).to_excel('b.xlsx')

2、python如何对excel表格指定内容查找

 poi_data_renshu = pd.read_excel(r"poi_grid.xlsx") 
 d_fnid = [1,2,3,4,5]
 renshu_list=[]
    for d_fnid_li in d_fnid:
        p=poi_data_renshu[poi_data_renshu['fnid']== d_fnid_li][['renshu']]    # [[]]内为指定的列名
        # print(p)
        for row in p.values:
            renshu_list.append(row[0])

3、python 判断两个列表中相同和不同的元素


#接口返回值
list1 = ['张三', '李四', '王五', '老二']
#数据库返回值
list2 = ['张三', '李四', '老二', '王七']

a = [x for x in list1 if x in list2] #两个列表中都存在
b = [y for y in (list1 + list2) if y not in a] #两个列表中的不同元素

print('a的值为:',a)
print('b的值为:',b)

c = [x for x in list1 if x not in list2]  #在list1列表中而不在list2列表中
d = [y for y in list2 if y not in list1]  #在list2列表中而不在list1列表中
print('c的值为:',c)
print('d的值为:',d)

运行结果为：

a的值为: [‘张三’, ‘李四’, ‘老二’]
b的值为: [‘王五’, ‘王七’]
c的值为: [‘王五’]
d的值为: [‘王七’]

4、python 将某一行的数据中逐列取出，与第一列对应

import pandas as pd

df = pd.read_excel(r"F:\GPU10.0.45\813shopfinal\fnid_jihe.xlsx")
# print(df)
df.fillna(value=0, inplace=True)
print(df)
for i in df.values:
    # print(i[0])
    for j in range(1,50):
        # print(i[j])
        if i[j] != 0:
            dic= {'custid':i[0],'fnid':i[j]}
            print(dic)
            data = pd.DataFrame([dic])
            # print(data)
            for k in data.values:
                print(k[0])
                 with open('bdf.csv', 'a+') as f:
                    f.write(str(k[0])+','+str(k[1])+',')
                    f.write('\n')

pd取某几列

import pandas as pd

data = pd.read_csv()
data = data.iloc[:, 0:13]  # 按位置取某几列

取行列

import numpy as np
from pandas import DataFrame
import pandas as pd

df=DataFrame(np.arange(12).reshape((3,4)),index=['one','two','thr'],columns=list('abcd'))
 
df['a']#取a列
df[['a','b']]#取a、b列
 
#ix可以用数字索引，也可以用index和column索引
df.ix[0]#取第0行
df.ix[0:1]#取第0行
df.ix['one':'two']#取one、two行
df.ix[0:2,0]#取第0、1行，第0列
df.ix[0:1,'a']#取第0行，a列
df.ix[0:2,'a':'c']#取第0、1行，abc列
df.ix['one':'two','a':'c']#取one、two行，abc列
df.ix[0:2,0:1]#取第0、1行，第0列
df.ix[0:2,0:2]#取第0、1行，第0、1列
 
#loc只能通过index和columns来取，不能用数字
df.loc['one','a']#one行，a列
df.loc['one':'two','a']#one到two行，a列
df.loc['one':'two','a':'c']#one到two行，a到c列
df.loc['one':'two',['a','c']]#one到two行，ac列
 
#iloc只能用数字索引，不能用索引名
df.iloc[0:2]#前2行
df.iloc[0]#第0行
df.iloc[0:2,0:2]#0、1行，0、1列
df.iloc[[0,2],[1,2,3]]#第0、2行，1、2、3列
 
#iat取某个单值,只能数字索引
df.iat[1,1]#第1行，1列
#at取某个单值,只能index和columns索引
df.at['one','a']#one行，a列

按条件取行
选取等于某些值的行记录 用 ==
df.loc[df[‘column_name’] == some_value]
 
选取某列是否是某一类型的数值 用 isin
df.loc[df[‘column_name’].isin(some_values)]
 
多种条件的选取 用 &
df.loc[(df[‘column’] == some_value) & df[‘other_column’].isin(some_values)]
 
选取不等于某些值的行记录 用 ！=
df.loc[df[‘column_name’] != some_value]
 
isin返回一系列的数值,如果要选择不符合这个条件的数值使用~
df.loc[~df[‘column_name’].isin(some_values)]

#删除特定行
 要删除列“score”<50的所有行：
df = df.drop(df[df.score < 50].index)
 
df.drop(df[df.score < 50].index, inplace=True)
 
# 多条件情况
# 可以使用操作符： | 只需其中一个成立, & 同时成立, ~ 表示取反，它们要用括号括起来。
# 例如删除列“score<50 和>20的所有行
df = df.drop(df[(df.score < 50) & (df.score > 20)].index)

#利用列表生成式，把一个list中所有的字符串变成小写
L = ['Hello' , 666 , 'World' , 888 , 'IBM' , 'Apple']
L1 = [s.lower() for s in L if isinstance(s,str)]
print(L1)

#dataframe每列取一定比例的数据加上高斯噪声
    for column in data_test_c1.columns:
        n = int(data_test_c1[column].size * 0.5)
        indices = np.random.choice(data_test_c1[column].index, size=n, replace=False)
        noise = np.random.normal(loc=0, scale=1, size=n)
        data_test_c1.loc[indices, column] += noise