Datawhale AI 夏令营（机器学习方向）

Han__0

已于 2024-07-15 00:27:24 修改

阅读量226

点赞数 1

文章标签：人工智能

于 2024-07-14 23:59:16 首次发布

本文链接：https://blog.csdn.net/Han__0/article/details/140425781

版权

1.赛事说明

2.机器学习简要说明

2.1 机器学习的基本思路

a.把现实生活中的问题抽象成数学模型，并且很清楚模型中不同参数的作用

b.利用数学方法对这个数学模型进行求解，从而解决现实生活中的问题

c.评估这个数学模型，是否真正的解决了现实生活中的问题，解决的如何？？

机器学习根据训练方法大致可以分为3大类：

1.监督学习

2.非监督学习

3.强化学习

3.代码说明

以下是对提供的代码段的简要解释：

导入需要用到的相关库：
- 首先，导入了pandas库，并将其简称为pd。pandas是一个强大的Python数据分析工具库，常用于数据处理和分析。
- 然后，导入了numpy库，并将其简称为np。numpy是Python中用于科学计算的基础库，它提供了多维数组对象以及相关的操作函数。
读取训练集和测试集：
- 使用pandas的read_csv()函数从指定路径（./data/data283931/）读取名为train.csv的训练集数据，并将其存储在变量train中。
- 注意：在读取测试集数据时，原代码有误地再次尝试读取train.csv作为测试集。理论上应该读取另一个文件（可能是test.csv），这里我假设应该修正为test.csv。修正后的代码应该是：test = pd.read_csv(./data/data283931/test.csv)。
计算训练数据最近11-20单位时间内对应id的目标均值：
- 这部分代码试图从train数据集中筛选出dt列值小于等于20的记录，并基于id列对这些记录进行分组，然后计算每个id对应的target列的均值。然而，代码中存在一些语法错误和潜在的逻辑问题。
- 正确的代码应该确保dt、id和target是train数据集中的有效列名，并且使用正确的列名来索引和分组。例如，如果列名是正确的，则可能需要调整如下（假设列名是正确的，且代码逻辑也是预期的）：
  python复制代码
  
  filtered_train = train[train['dt'] <= 20]
  target_mean = filtered_train.groupby('id')['target'].mean().reset_index()
将target_mean作为测试集结果进行合并：
- 这行代码使用merge()函数将上一步计算得到的target_mean与测试集test进行合并，合并的键是id列，合并方式为左连接（how='left'）。这意味着test中的每一行都会尝试与target_mean中的行进行匹配，如果test中的id在target_mean中存在，则合并相应的target均值；如果不存在，则target列将包含缺失值（通常是NaN）。
保存结果文件到本地：
- 最后，将合并后的测试集（现在包含了一个额外的target列，表示预测的均值）保存到本地文件submit.csv中，但文件名前应添加路径或指定完整的文件路径。index=None参数用于在保存时不包括行索引。