【杂七杂八】一些常用的函数

最新推荐文章于 2024-10-18 00:00:00 发布

周周冲冲冲

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量82

点赞数

文章标签： python numpy

本文链接：https://blog.csdn.net/qq_46053016/article/details/132621618

版权

Python

# 添加 income_label 列
train_data['income_label'] = (
    train_data["income_bracket"].apply(lambda x: ">50K" in x)).astype(int)

这段代码是为训练集添加一个名为income_label的新列，根据income_bracket列的值进行标记。如果income_bracket列中包含字符串">50K"，则对应的income_label值为1（代表收入大于50K），否则为0（代表收入不大于50K）。

Pandas 一个强大的分析结构化数据的工具集，基础是 Numpy（提供高性能的矩阵运算）。可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。此外，还可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征。

使用pandas做数据处理的第一步就是读取数据，数据源可以来自于各种地方，csv文件便是其中之一。而读取csv文件，pandas也提供了非常强力的支持，参数有四五十个。这些参数中，有的很容易被忽略，但是在实际工作中却用处很大。

skiprows：表示过滤行，想过滤掉哪些行，就写在一个列表里面传递给skiprows即可。注意的是：这里是先过滤，然后再确定表头，比如：
```
df_test = pd.read_csv("adult.test", names=COLUMNS, skipinitialspace=True, skiprows=1)
```
skipinitialspace:使用它我们可以从整个数据框架中剥离空白部分。默认情况下，它是假的，把它设为 “真 “就可以删除多余的空间。