task01

面对天池赛的数据文件,你需要理解其中的关系。通常,训练数据集用于模型训练,其余可能包括验证集和测试集。首先,仔细阅读数据说明,确定数据用途。数据预处理涉及分词、TF-IDF等,将文本转换为模型可输入的形式。对于NLP问题,了解最新论文和趋势是必要的。这类问题可能涉及文本分类、信息检索等,常见步骤包括数据清洗、特征工程、模型选择和调优。可以参考Kaggle等平台找到类似比赛。
摘要由CSDN通过智能技术生成

问题1:

天池赛官网下载到的5个数据文件,其中了解到有一份是训练数据集,但其他4份就不是很清楚,第一次接触这种类型的还是有点懵的。拿到数据,几份数据之间都有什么关系?具体我该怎么使用每一份文件?如何处理数据?然后弄成什么样的数据形式喂入模型?

问题2:

这种比赛属于什么NLP问题?具体是哪个方向?我是不是该读读相关的综述论文?了解发展现状和研究趋势?最新的动态是怎样的?

问题3:

这类方向的问题,一般步骤是?还有哪些类似的比赛?

搭建环境

暂时安装了jieba,TFIDF(这个不知道怎么使用)

分词

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值