【Datawhale夏令营】机器学习笔记一

机器学习小白的菜鸟笔记(自用)

基本介绍

赛题背景:

用户新增预测是分析用户使用场景以及预测用户增长情况的关键步骤,有助于进行后序产品和应用的迭代升级

目标:

对具体场景应用相应的ai能力和解决方案,通过ai解决相关实际问题。

数据集:

uuid

样本唯一标识

eid

访问行为id

udmap

行为属性

其中key1-9为不同行为属性如项目名、项目id

common_ts

应用访问记录发生时间

(毫秒时间戳)

x1-x8

用户相关属性

匿名处理字段

target

预测目标

是否为新增用户

f1_score

评价标准

解题思路:

基于训练集的样本数据,构建模型来预测测试集中用户的新增情况。

二分类任务,目标是根据用户的行为、属性以及访问时间等特征,预测该用户是否为新增用户。

具体操作:利用给定数据集进行特征工程、模型选择和训练,用训练好的模型对测试集中的用户进行预测和生成预测结果。

第一阶段基本任务:跑通用户新增预测baseline

基于百度ai studio,讲baseline部署在线上平台

Docs

运行配置:CPU2核8G或V100 16G

实践步骤

导入库

首先,代码导入了需要用到的库,包括 pandas(用于数据处理和分析)和 DecisionTreeClassifier(决策树分类器)等。

读取数据

代码通过使用 pd.read_csv 函数从文件中读取训练集和测试集数据,并将其存储在 train_data 和 test_data 两个数据框中。

特征工程

   - udmap_onethot 函数将原始的 udmap 特征进行了预处理,将其转换为一个长度为9的向量,表示每个key是否存在。

   - 对 udmap 特征进行编码,生成 udmap_isunknown 特征,表示该特征是否为空。

   - 将处理后的 udmap 特征与原始数据拼接起来,形成新的数据框。

   - 提取 eid 特征的频次(出现次数)和均值,并添加为新的特征。

   - 使用时间戳 common_ts 提取小时部分,生成 common_ts_hour 特征。

决策树模型训练和预测

   - 创建了一个 DecisionTreeClassifier 的实例,即决策树分类器。

   - 使用 fit 函数对训练集中的特征和目标进行拟合,训练了决策树模型。

   - 对测试集使用已训练的模型进行预测,得到预测结果。

   - 将预测结果和相应的 uuid 组成一个DataFrame,并将其保存到 submit.csv 文件中。

一些解释

baseline可看作参照物,理解为基础模型

给定baseline选择使用机器学习方法

解决机器学习问题一般流程:

        1.问题分析

        2.数据探索

        3.数据清洗

        4.特征工程

        5.模型训练

        6.模型验证(优化特征工程)

        7.结果输出

使用机器学习算法而非深度学习的原因:

        机器学习问题中,特征工程很关键(特征工程能充分捕捉数据的关键特征则机器学习算法也能表现得很好。

        深度学习可以在某种程度上自动学习特征,但对于特定问题,手动设计特征可能更有效。

(来自夏令营文档https://datawhaler.feishu.cn/docx/HBIHd7ugzoOsMqx0LEncR1lJnCf)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 简介 航空航天科普夏令营是一项旨在向青少年介绍航空航天知识,激发他们对科学技术的热情以及培养他们的创新精神的夏令营项目。该项目将为青少年提供机会,参观航空航天博物馆、科技企业和研究机构,学习航空航天技术的最新发展和应用。此外,该项目还将提供实践性的课程,让学生能够参与模拟飞行、火箭制造和无人机操作等活动,以更深入的了解航空航天的工作原理和应用。 2. 目标市场 我们的目标市场是来自全国各地的13-18岁的青少年。我们将与学校和社区组织合作,宣传和推广我们的夏令营项目。我们将通过社交媒体、广告和网络宣传来吸引学生报名参加。我们的夏令营将提供全天候的学习环境,让学生能够充分利用他们的暑假时间,学习并探索航空航天领域的知识。 3. 费用和收益 我们的夏令营将为期两周,每周收取学费5000元。每个夏令营将招收50名学生,每个夏令营的总收入为50万。我们将租用教室、实验室、工具和设备,每个夏令营的成本为30万。每个夏令营的净收益为20万。 4. 营销策略 我们将与学校和社区组织合作开展宣传活动,包括在各大社交媒体平台上发布宣传信息、在学校和社区组织的网站上发布广告、在各大论坛上发帖宣传等。此外,我们还将与家长和学生进行面对面的宣传,向他们介绍我们的夏令营项目和课程内容,邀请他们参加我们的夏令营。 5. 团队和资源 我们的团队包括有经验的教师和航空航天专家,他们将为学生提供全面的课程和实践指导。我们还将聘请志愿者帮助我们组织夏令营活动。我们将租用教室、实验室和设备,确保学生有最好的学习环境和条件。 6. 竞争分析 虽然在国内还没有太多航空航天科普夏令营项目,但是我们仍然需要注意竞争。我们的竞争对手可能是其他夏令营项目、在线教育平台和航空航天专业机构。我们的优势在于,我们拥有一支专业的团队,能够提供全面的课程和实践指导;我们的夏令营将提供学生与专家面对面交流的机会,让学生能够更深入的了解航空航天领域的知识和实践。 7. 经营计划 在未来几年内,我们计划扩大我们的夏令营项目,增加更多的课程和实践活动,吸引更多的学生参加。我们还计划与航空航天领域的企业和机构合作,为学生提供更多的实践机会和就业机会。我们将继续不断改进我们的课程和服务,确保我们的夏令营项目能够成为学生和家长信赖的品牌。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值