Python
- lambda:
# 添加 income_label 列
train_data['income_label'] = (
train_data["income_bracket"].apply(lambda x: ">50K" in x)).astype(int)
这段代码是为训练集添加一个名为income_label的新列,根据income_bracket列的值进行标记。如果income_bracket列中包含字符串">50K",则对应的income_label值为1(代表收入大于50K),否则为0(代表收入不大于50K)。
pandas
Pandas 一个强大的分析结构化数据的工具集,基础是 Numpy(提供高性能的矩阵运算)。可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。此外,还可以对各种数据进行运算操作,比如归并、再成形、选择,还有数据清洗和数据加工特征。
pandas的read_csv方法
使用pandas做数据处理的第一步就是读取数据,数据源可以来自于各种地方,csv文件便是其中之一。而读取csv文件,pandas也提供了非常强力的支持,参数有四五十个。这些参数中,有的很容易被忽略,但是在实际工作中却用处很大。
-
skiprows:表示过滤行,想过滤掉哪些行,就写在一个列表里面传递给skiprows即可。注意的是:这里是先过滤,然后再确定表头,比如:
df_test = pd.read_csv("adult.test", names=COLUMNS, skipinitialspace=True, skiprows=1)
-
skipinitialspace:使用它我们可以 从整个数据框架中剥离空白部分。默认情况下,它是假的,把它设为 “真 “就可以删除多余的空间。
keras
Keras(Keras API for Python)是一个用于构建高级神经网络的Python库,它可以与TensorFlow、Theano、CNTK等深度学习框架无缝集成。Keras提供了一套简单但强大的API,使得用户可以方便地定义、训练和评估神经网络。
-
model.predict(X):预测新数据的类别。其中,X是输入数据。
-
model.save(path):将模型保存到文件中。其中,path是保存路径。
-
model.load(path):从文件中加载模型。其中,path是保存路径。 model.summary():打印模型的详细信息。
-
model.clear_weights():清除模型的权重
参考博客
https://zhuanlan.zhihu.com/p/340441922