Data whale AI夏令营第三期机器学习学习笔记(1)

最新推荐文章于 2024-09-27 16:14:00 发布

syd123f

最新推荐文章于 2024-09-27 16:14:00 发布

阅读量57

点赞数

文章标签：人工智能学习笔记

本文链接：https://blog.csdn.net/syd123f/article/details/132357138

版权

AI夏令营是由Datawhale主办，联合科大讯飞、阿里云天池，设置了机器学习、深度学习、AI for Science三个方向，结合最新赛事，为在校生提供学习机会，提升专业能力和就业竞争力。

由于本人有一定的python基础，因此把学习重点放在了机器学习上

# 导入库
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier#决策树模型

# 读取训练集和测试集文件
train_data = pd.read_csv('用户新增预测挑战赛公开数据/train.csv')
test_data = pd.read_csv('用户新增预测挑战赛公开数据/test.csv')

# 提取udmap特征，人工进行onehot
#定义udmap_onethot()函数：该函数用于对udmap特征进行人工的one-hot编码。首先创建一个长度为9的全零向量v，然后根据输入的d的值进行判断，如果值为'unknown'，则直接返回全零向量。如果值不为'unknown'，则通过eval()函数将字符串转换成字典对象d，然后遍历数字1到9，检查字典中是否包含键名为'key1'、'key2'、...、'key9'的元素，如果存在，则将对应的值赋给向量v的相应位置（索引为i-1），最后返回得到的向量v。
def udmap_onethot(d):
    v = np.zeros(9)
    if d == 'unknown':
        return v
    d = eval(d)
    for i in range(1, 10):
        if 'key' + str(i) in d:
            v[i-1] = d['key' + str(i)]
            
    return v
#对udmap特征进行one-hot编码：通过apply()方法将udmap_onethot()函数应用到train_data['udmap']和test_data['udmap']上，将返回的数组垂直堆叠成DataFrame对象train_udmap_df和test_udmap_df，然后为这两个DataFrame设置列名。
train_udmap_df = pd.DataFrame(np.vstack(train_data['udmap'].apply(udmap_onethot)))
test_udmap_df = pd.DataFrame(np.vstack(test_data['udmap'].apply(udmap_onethot)))
train_udmap_df.columns = ['key' + str(i) for i in range(1, 10)]
test_udmap_df.columns = ['key' + str(i) for i in range(1, 10)]

# 编码udmap是否为空
train_data['udmap_isunknown'] = (train_data['udmap'] == 'unknown').astype(int)
test_data['udmap_isunknown'] = (test_data['udmap'] == 'unknown').astype(int)

# udmap特征和原始数据拼接
#通过使用.concat()函数将train_udmap_df和test_udmap_df与原始数据集train_data和test_data进行列拼接。
train_data = pd.concat([train_data, train_udmap_df], axis=1)
test_data = pd.concat([test_data, test_udmap_df], axis=1)

# 提取eid的频次特征
# 使用value_counts()函数统计train_data['eid']中每个元素的出现次数，并通过map()函数将结果映射到对应的train_data['eid_freq']和test_data['eid_freq']中。
train_data['eid_freq'] = train_data['eid'].map(train_data['eid'].value_counts())
test_data['eid_freq'] = test_data['eid'].map(train_data['eid'].value_counts())

# 提取eid的标签特征
# 使用groupby()函数根据eid对train_data进行分组，然后计算每个分组中target列的均值，并通过map()函数将结果映射到对应的train_data['eid_mean']和test_data['eid_mean']中。
train_data['eid_mean'] = train_data['eid'].map(train_data.groupby('eid')['target'].mean())
test_data['eid_mean'] = test_data['eid'].map(train_data.groupby('eid')['target'].mean())

# 提取时间戳
# 将train_data['common_ts']和test_data['common_ts']的数值类型转换为时间戳类型，指定时间单位为毫秒。然后使用.dt.hour将时间戳转换为小时数，并将结果存储在train_data['common_ts_hour']和test_data['common_ts_hour']中。
train_data['common_ts'] = pd.to_datetime(train_data['common_ts'], unit='ms')
test_data['common_ts'] = pd.to_datetime(test_data['common_ts'], unit='ms')
train_data['common_ts_hour'] = train_data['common_ts'].dt.hour
test_data['common_ts_hour'] = test_data['common_ts'].dt.hour

# 加载决策树模型进行训练
# 创建一个DecisionTreeClassifier分类器对象clf，使用fit()方法将训练集的特征列（去除不需要的列）与目标列作为输入进行模型训练。
clf = DecisionTreeClassifier()
clf.fit(
    train_data.drop(['udmap', 'common_ts', 'uuid', 'target'], axis=1),
    train_data['target']
)

# 对测试集进行预测，将submit.csv在比赛页面提交
# 使用已训练好的分类器clf对测试集的特征列（去除不需要的列）进行预测，并生成包含预测结果的DataFrame对象。最后将预测结果保存为CSV文件submit.csv，并包括uuid和target两列。
pd.DataFrame({
    'uuid': test_data['uuid'],
    'target': clf.predict(test_data.drop(['udmap', 'common_ts', 'uuid'], axis=1))
}).to_csv('submit.csv', index=None)

在baseline的代码中，使用了决策树来进行训练和预测，因此笔者从决策树入手，开始学习机器学习相关的算法

决策树是一个预测模型，它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表某个可能的属性值，而每个叶节点则对应从根节点到该叶节点所经历的路径所表示的对象的值。从数据产生决策树的机器学习技术叫做决策树学习，通俗说就是决策树。

这么说可能有些复杂，举个栗子，比如说要判断一个学生是不是好学生，我们可以用图像来进行解释