预处理过程记录

这篇博客记录了对CSV文件数据的预处理过程,包括处理相同ID的点,计算中点坐标值,生成新的CSV文件。还强调了在使用pandas时设置显示行数的选项以及在数据转换中的注意事项。
摘要由CSDN通过智能技术生成

数据预处理

对原始的CSV文件数据进行预处理,对原始数据中的两个点进行处理,同一个ID的z是相同的,无需处理;计算原来两个点的中点坐标值,即x,y等于原坐标值相加除2,并计算两个坐标之间的长度;最后将x、y、z和diameter,以及location的位置,并生成序列号对应的CSV文件。

# import the packages
%matplotlib inline
import pandas as pd
# import numpy as np
# import matplotlib.pyplot as plt
import csv
import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_rows',1000)  # to show all data
out_path = "./real_label/"

为了能够显示整行的数据,所以加入pd.set_option(‘display.max_rows’,1000)

task_1 = pd.read_csv("./TASK_689_20191108143056/result.csv")  # read CSV file
task_1.head()
task_1.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 14 columns):
用户手机号       206 non-null int64
用户姓名        206 non-null object
影像结果编号      206 non-null int64
检查编号        206 non-null object
序列编号        206 non-null object
开始时间        206 non-null object
提交时间        206 non-null object
自定义内容       0 non-null float64
阴阳性         0 non-null float64
病灶          206 non-null object
影像工具        206 non-null object
影像结果类型      206 non-null object
影像结果        206 non-null object
动脉瘤的入流动脉    206 non-null int64
dtypes: float64(2), int64(3), object(9)
memory usage: 22.6+ KB
data = task_1[["序列编号", "影像结果", "动脉瘤的入流动脉"]]

注意:取数据frame中的数据时,应该使用双括号。

data.head()

获取处理之后的数据,在通过map函数时,需要注意的是可以直接进行split(),并需要进行转换成float,astype(np.float32)或者astype(“float32”)才能够在后续步骤进行相

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值