自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 Datawhale AI 夏令营 :基于 Seq2Seq 的 Baseline 笔记以及代码详解

是一个用于自然语言处理(NLP)任务的库,它提供了丰富的功能,包括数据预处理、词汇构建、序列化和批处理等,特别适合于文本分类、情感分析、机器翻译等任务。可以看到我的 en_core_web_trf 3.7.3 版本的要求 spaCy >=3.7.2,<3.8.0,刚好满足我的 3.7.5的 spacy!用于读取指定文件中的数据,并将每一行的数据去掉首尾空白字符后返回为一个字符串列表。配置环境---数据预处理---模型训练和验证---使用模型进行翻译--提交结果。,以便于后续的模型训练和应用。

2024-07-17 22:45:16 612

原创 Datawhale 跑通并改进baseline

先进行特征初步筛选,将无关紧要或者无意义的特征删除,再进行数据清洗(处理缺失值,异常值,重复值),之后可以进行数据转换,将非数值型数据转换为数值型数据,再进行详细的特征筛选(相关系数法,方差过滤法,随机森林法等)但是原本的baseline中,数据预处理有些粗糙,以及用的模型是简单的决策树模型,那么在改进baseline的时候,可以从以下几个方面入手。二分类可以选择多种模型,原模型采用的是分类树,属于单基模型,也可以采用集成模型bagging或boosting。由于时间原因,我先将模型更换,改换为随机森林。

2024-07-04 22:56:32 237

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除