1、访问https://kaggle.com,搜索一个有结构化数据的竞赛(例如泰坦尼克号竞赛),在该平台上创建一个新内核,进行一些特征工程,并尝试构建一个预测模型。描述完成上述操作的大致步骤。
以下是完成上述操作的大致步骤:
- 打开浏览器,访问 https://kaggle.com ,若没有账号,需先注册账号并登录。
- 登录后,在网站的搜索框中输入有结构化数据的竞赛名称,如“泰坦尼克号竞赛”,然后在搜索结果中找到对应的竞赛并点击进入竞赛页面。
- 进入竞赛页面后,找到“Code”(代码)选项卡并点击,在该页面中可以看到已有的内核,点击“New Notebook”(新笔记本)来创建一个新内核。
- 在新内核中,将竞赛提供的结构化数据加载到内核环境中。通常可以使用Python的相关库,如Pandas来读取数据。
- 进行特征工程,这包括数据清洗(处理缺失值、异常值等)、特征选择(选择对预测有帮助的特征)、特征变换(如对数据进行标准化、归一化等操作)等步骤。可以使用Pandas、NumPy等库完成这些操作。
- 选择合适的机器学习算法来构建预测模型,例如逻辑回归、决策树、随机森林等。可以使用Scikit-learn等机器学习库来实现这些算法。
- 使用训练数据对模型进行训练,并使用验证数据对模型进行评估和调优。
- 最后,使用训练好的模型对测试数据进行预测,并将预测结果保存为指定的格式,如CSV文件,然后可以将预测结果提交到竞赛中查看成绩。
2、参加鲸鱼识别挑战,链接为https://www.kaggle.com/c/whale - categorization - playground,需阅读排名靠前的内核和讨论帖。通过鲸尾识别鲸鱼的任务类似于通过人脸识别人类,有优秀内核展示了边界框和孪生网络。由于尚未涵盖解决该任务所需的所有技术工具,应该怎么做?
鲸鱼识别挑战
鼓励参加鲸鱼识别挑战,通过提供的