【python数据处理基础】--数据读取、清洗数据

本文介绍了Python数据处理的基础操作,包括使用Pandas库读取CSV文件,添加列名,数据预览,以及数据清洗的基本方法,如处理缺失值和异常值。通过实例展示了如何从AWID入侵检测数据集中进行数据探索。
摘要由CSDN通过智能技术生成

python 数据处理实战

目录

随着网络数据的爆发式的增长,数据处理工作日益显示出它的重要性,我们的目的是从大量的杂乱无章的数据中找出对我们的工作有益的数据或者发现数据的某种分布特征,预测数据数据的规律。因此我们需要对数据进行可视化展示,特征选择,特征构建等一系列操作。本文的目的是针对像作者一样初步涉及到数据处理工作的读者们提供一个简单、直接的python数据处理基础操作。

数据读取

一般文本或者入侵检测的数据集都是以逗号分隔符分割的CSV文件。本文用的数据集为公开的入侵检测数据集AWID。此数据集一共有154个特征,同时每行数据都有相应的标签。但是作者目前不知道这些特征和标签类别有什么样的关联,因此我们的挑战就是通过观察此数据集来发现特征和类别之间的某种联系。如果你也和我一样好奇,那让我们开始我们的AWID数据集探索之旅吧。

Pandas是我们得力的助手,它是Python的一个库,同时是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
【导入库】

import pandas as pd
import numpy as np

【读取数据】

train_set=pd.read_csv(
评论 10
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值