NLP夏令营
文章平均质量分 84
一朝有悟,臻至化境
这个作者很懒,什么都没留下…
展开
-
NLP夏令营任务三-大模型解决二分类
首先获取这一行的数据,然后将数据转换为一个字典,字典的 "instruction" 键对应的值是一个固定的字符串,"input" 键对应的值是由标题和摘要组成的字符串,"output" 键对应的值是这篇文章是否属于医学领域(1 代表是,0 代表不是)。首先获取这一行的数据,然后将数据转换为模型需要的输入格式,调用之前定义的函数进行预测,然后将预测结果添加到之前创建的列表中。40-49. 定义一个函数,这个函数的输入是一篇文章的标题和摘要,输出是模型对这篇文章是否属于医学领域的预测结果。原创 2023-07-30 22:55:33 · 397 阅读 · 0 评论 -
NLP夏令营任务二—Baseline代码精读
文本频率矩阵是一个稀疏矩阵,其中每行代表一个文档(样本),每列表示一个在词汇表中的单词(特征),而矩阵中的元素表示对应文档中对应单词出现的次数。: 这个表达式对上述Series进行逻辑比较,判断每个二元词组的长度是否大于3,返回一个布尔类型的Series,其中元素为True表示该二元词组的长度大于3,False表示长度小于等于3。列名: DataFrame的每一列都会有一个列名,但在这个代码中,由于二元词组只有一个列,因此这个列名不会被指定,通常在数据处理时可以为DataFrame的列分配有意义的列名。原创 2023-07-27 22:17:24 · 430 阅读 · 0 评论 -
NLP夏令营——任务一
针对文本分类任务,可以提供两种实践思路,一种是使用传统的特征提取方法(如TF-IDF/BOW)结合机器学习模型,另一种是使用预训练的BERT模型进行建模。在标题和摘要中出现的关键词:这些关键词是文本的核心内容,通常在文章的标题和摘要中出现,用于概括和提炼文本的主题或要点。没有在标题和摘要中出现的关键词:这类关键词可能在文本的正文部分出现,但并没有在标题和摘要中提及。基于机器学习/深度学习的方法:使用监督学习或无监督学习的方法训练模型,从文本中提取出未出现在标题和摘要中的关键词。原创 2023-07-21 11:41:05 · 376 阅读 · 0 评论