1.处理csv文件
import pandas as pd
import numpy as np
# 读取csv文件得到DataFrame结构数据
csvContent=pd.read_csv('xxx.csv')
# 获取csv文件键值(第一行head名字)
csvContent.keys()
list(csvContent)
# 获取DataFrame结构中第i行第j列值
csvContent.values[i][j]
# 删除第i列到第j列
delCol=list(csvContent)[dl for i in range(i,j+1)]
csvContent=csvContent.drop(delCol,axis=1) # axis参数为1表示删除列,为0表示删除行
# 对关键字进行处理
strlist=str.split('\')
st=''# 去掉空格
str=st.join(strlist)
# 读取行数
pd.read_csv('../data/train.csv',nrows=10)
# 每次读取10000行
for sub_data in pd.read_csv('../data/train.csv',chunksize=10000):
print("===========")
print(len(sub_data))
# 按行读取内容
for value in file_content.iterrows():
print(value) # (index,key value key value ...)
# 获取行数与列数
fileContent = pd.read_csv(fileDir + "/" + file)
colNum=fileContent.shape[0] #列数
rowNum=fileContent.shape[1] #行数
# 获取第i行到第j行
fileContent[i:j]
# 获取第i列到第j列
fileContent[list(fileContent)[i:j]]
# 某方形区域内数据
print(file_content.iloc[:,3])
print(file_content.iloc[3,:])
# 获取某个维度(特征)等于某个特定值的所有行
newFile = fileContent[fileContent['SourceIP'] == sip]
print(newFile)
# ==================================
# 转化为numpy.array结构数据
csvArr=np.array(csvContent)
# 删除列行
np.delete(csvArr, delCol, axis=1)
np.delete(csvArr, delRow, axis=0)
# 写入新的csv文件
csvArr = pd.DataFrame(csvArr, columns=newContentHead)
csvArr.to_csv("xxx.csv")
# 使用正则表达式处理匹配
re.match('www',str) #在开始处匹配
2. 处理json文件
# 直接使用pandas读取文件
jsonContent=pd.read_json("xxx.json")
# 得到DataFrame结构在进行处理
3.csv转变为json文件
'''1.先将.csv文件转存为.json文件'''
# 读取文件
csvData=pd.read_csv('../data/ipData/5.79.65.138.csv')
# 删除前两列没有意义的数据
delCol=list(csvData)[0:2]
newCsvData=csvData.drop(delCol,axis=1)
# 写入json文件
newCsvData.to_json('5.79.65.138.json')
'''2.对json数据进行读取然后进行处理'''
# 打开文件进行读取
jsonData=open('5.79.65.138.json','r')
# 读取的是[{}]形式
jsonData=jsonData.readlines()
# [0]读取出来的是str形式
print(type(jsonData[0]))
# 将json数据变成Dict字典格式
jsonDataDict=json.loads(jsonData[0])
print(type(jsonDataDict))
# 将关键字转变为list形式
keyList=list(jsonDataDict.keys())
# 获取第一个关键字对应的键值
print(jsonDataDict.get(keyList[0]))
jsonDataJson=json.dumps(jsonDataDict)
print(type(jsonDataJson))