预处理过程记录

最新推荐文章于 2021-02-17 17:06:34 发布

旋律_Wang

最新推荐文章于 2021-02-17 17:06:34 发布

阅读量209

点赞数

分类专栏：学习笔记实习

本文链接：https://blog.csdn.net/qq_33289694/article/details/103238211

版权

这篇博客记录了对CSV文件数据的预处理过程，包括处理相同ID的点，计算中点坐标值，生成新的CSV文件。还强调了在使用pandas时设置显示行数的选项以及在数据转换中的注意事项。

摘要由CSDN通过智能技术生成

数据预处理

对原始的CSV文件数据进行预处理，对原始数据中的两个点进行处理，同一个ID的z是相同的，无需处理；计算原来两个点的中点坐标值，即x，y等于原坐标值相加除2，并计算两个坐标之间的长度；最后将x、y、z和diameter，以及location的位置，并生成序列号对应的CSV文件。

# import the packages
%matplotlib inline
import pandas as pd
# import numpy as np
# import matplotlib.pyplot as plt
import csv
import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_rows',1000)  # to show all data
out_path = "./real_label/"

为了能够显示整行的数据，所以加入pd.set_option(‘display.max_rows’,1000)

task_1 = pd.read_csv("./TASK_689_20191108143056/result.csv")  # read CSV file
task_1.head()

task_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 206 entries, 0 to 205
Data columns (total 14 columns):
用户手机号       206 non-null int64
用户姓名        206 non-null object
影像结果编号      206 non-null int64
检查编号        206 non-null object
序列编号        206 non-null object
开始时间        206 non-null object
提交时间        206 non-null object
自定义内容       0 non-null float64
阴阳性         0 non-null float64
病灶          206 non-null object
影像工具        206 non-null object
影像结果类型      206 non-null object
影像结果        206 non-null object
动脉瘤的入流动脉    206 non-null int64
dtypes: float64(2), int64(3), object(9)
memory usage: 22.6+ KB

data = task_1[["序列编号", "影像结果", "动脉瘤的入流动脉"]]

注意：取数据frame中的数据时，应该使用双括号。

data.head()

获取处理之后的数据，在通过map函数时，需要注意的是可以直接进行split()，并需要进行转换成float，astype(np.float32)或者astype(“float32”)才能够在后续步骤进行相

最低0.47元/天解锁文章

旋律_Wang

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
预处理过程记录

数据预处理对原始的CSV文件数据进行预处理，对原始数据中的两个点进行处理，同一个ID的z是相同的，无需处理；计算原来两个点的中点坐标值，即x，y等于原坐标值相加除2，并计算两个坐标之间的长度；最后将x、y、z和diameter，以及location的位置，并生成序列号对应的CSV文件。# import the packages%matplotlib inlineimport pandas ...
复制链接

扫一扫

专栏目录