数据预处理
对原始的CSV文件数据进行预处理,对原始数据中的两个点进行处理,同一个ID的z是相同的,无需处理;计算原来两个点的中点坐标值,即x,y等于原坐标值相加除2,并计算两个坐标之间的长度;最后将x、y、z和diameter,以及location的位置,并生成序列号对应的CSV文件。
# import the packages
%matplotlib inline
import pandas as pd
# import numpy as np
# import matplotlib.pyplot as plt
import csv
import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_rows',1000) # to show all data
out_path = "./real_label/"
为了能够显示整行的数据,所以加入pd.set_option(‘display.max_rows’,1000)
task_1 = pd.read_csv("./TASK_689_20191108143056/result.csv") # read CSV file
task_1.head()
task_1.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 14 columns):
用户手机号 206 non-null int64
用户姓名 206 non-null object
影像结果编号 206 non-null int64
检查编号 206 non-null object
序列编号 206 non-null object
开始时间 206 non-null object
提交时间 206 non-null object
自定义内容 0 non-null float64
阴阳性 0 non-null float64
病灶 206 non-null object
影像工具 206 non-null object
影像结果类型 206 non-null object
影像结果 206 non-null object
动脉瘤的入流动脉 206 non-null int64
dtypes: float64(2), int64(3), object(9)
memory usage: 22.6+ KB
data = task_1[["序列编号", "影像结果", "动脉瘤的入流动脉"]]
注意:取数据frame中的数据时,应该使用双括号。
data.head()
获取处理之后的数据,在通过map函数时,需要注意的是可以直接进行split(),并需要进行转换成float,astype(np.float32)或者astype(“float32”)才能够在后续步骤进行相