pandas与numpy数据处理知识点总结

1.处理csv文件

import pandas as pd
import numpy as np

# 读取csv文件得到DataFrame结构数据
csvContent=pd.read_csv('xxx.csv')
# 获取csv文件键值(第一行head名字)
csvContent.keys()
list(csvContent)
# 获取DataFrame结构中第i行第j列值
csvContent.values[i][j]
# 删除第i列到第j列
delCol=list(csvContent)[dl for i in range(i,j+1)]
csvContent=csvContent.drop(delCol,axis=1) # axis参数为1表示删除列,为0表示删除行
# 对关键字进行处理
strlist=str.split('\')
st=''# 去掉空格
str=st.join(strlist)
# 读取行数
pd.read_csv('../data/train.csv',nrows=10)
# 每次读取10000行
for sub_data in pd.read_csv('../data/train.csv',chunksize=10000):
    print("===========")
    print(len(sub_data))   
    # 按行读取内容
for value in file_content.iterrows():
        print(value) # (index,key value key value ...)
# 获取行数与列数
fileContent = pd.read_csv(fileDir + "/" + file)
colNum=fileContent.shape[0] #列数
rowNum=fileContent.shape[1] #行数
# 获取第i行到第j行
fileContent[i:j]
# 获取第i列到第j列
fileContent[list(fileContent)[i:j]]
# 某方形区域内数据
print(file_content.iloc[:,3])
print(file_content.iloc[3,:])

# 获取某个维度(特征)等于某个特定值的所有行
newFile = fileContent[fileContent['SourceIP'] == sip]
print(newFile)
                 
# ==================================
# 转化为numpy.array结构数据
csvArr=np.array(csvContent)
# 删除列行
np.delete(csvArr, delCol, axis=1)
np.delete(csvArr, delRow, axis=0)
# 写入新的csv文件
csvArr = pd.DataFrame(csvArr, columns=newContentHead)
csvArr.to_csv("xxx.csv")
                  
# 使用正则表达式处理匹配
re.match('www',str) #在开始处匹配

2. 处理json文件

# 直接使用pandas读取文件
jsonContent=pd.read_json("xxx.json")
# 得到DataFrame结构在进行处理

3.csv转变为json文件

'''1.先将.csv文件转存为.json文件'''
# 读取文件
csvData=pd.read_csv('../data/ipData/5.79.65.138.csv')
# 删除前两列没有意义的数据
delCol=list(csvData)[0:2]  
newCsvData=csvData.drop(delCol,axis=1)
# 写入json文件
newCsvData.to_json('5.79.65.138.json')

'''2.对json数据进行读取然后进行处理'''
# 打开文件进行读取
jsonData=open('5.79.65.138.json','r')
# 读取的是[{}]形式
jsonData=jsonData.readlines()
# [0]读取出来的是str形式
print(type(jsonData[0]))
# 将json数据变成Dict字典格式
jsonDataDict=json.loads(jsonData[0])
print(type(jsonDataDict))
# 将关键字转变为list形式
keyList=list(jsonDataDict.keys())
# 获取第一个关键字对应的键值
print(jsonDataDict.get(keyList[0]))
jsonDataJson=json.dumps(jsonDataDict)
print(type(jsonDataJson))
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值