自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 文本分类与关键词抽取挑战赛(任务二改进)

机器需要根据对论文摘要等信息的理解,将论文划分为医学领域的文献和非医学领域的文献两个类别之一。机器需要从给定的论文中识别和提取出与论文内容相关的关键词。Keywords为任务2的标签,label为任务1的标签。建议入门的同学可以暂时不用着急去弄懂各个代码的原理,先跑通代码,动手实践,看到成绩。在标题和摘要中出现的关键词:这些关键词是文本的核心内容,通常在文章的标题和摘要中出现,用于概括和提炼文本的主题或要点。没有在标题和摘要中出现的关键词:这类关键词可能在文本的正文部分出现,但并没有在标题和摘要中提及。

2023-07-30 23:04:46 69 1

原创 文本分类与关键词抽取挑战赛

针对文本分类任务,可以提供两种实践思路,一种是使用传统的特征提取方法(如TF-IDF/BOW)结合机器学习模型,另一种是使用预训练的BERT模型进行建模。- 基于机器学习/深度学习的方法:使用监督学习或无监督学习的方法训练模型,从文本中提取未出现在标题和摘要中的关键词。1. 出现在标题和摘要中的关键词:这些关键词是文本的核心内容,在文章的标题和摘要中出现,并用于概括和提取文本的主题或要点。2. 没有在标题和摘要中出现的关键词:这类关键词可能在文本的正文部分出现,但在标题和摘要中并未提及。

2023-07-27 22:07:18 49 1

原创 NLP文本分类

但是在统计词语的过程中通常会遇到如下问题—最高出现的词汇可能是”停用词”,如”的”,”是”,”在”,在文本当中有的词的重要性是不同的,假如我们统计词频发现这五个词的频率最高,如”中国”、”土地”、”房子”、”蜜蜂”、”养殖”,其中中国、土地这些词汇经常出现而蜜蜂、养殖等词语不常出现。某个词对文章的重要性越高,它的TF-IDF值就越大。缺点:忽略掉了词的位置信息,词x的前后语义信息丢失.通常情况下,传统的TF-IDF算法会在计算IDF时给予一些生僻词较高的权重,这样就很容易误将这些生僻词视为文档的关键词。

2023-07-22 10:44:51 51

转载 Anaconda国内镜像

Anaconda配置国内镜像源

2023-01-05 16:10:37 106

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除