学术前沿趋势分析 Task4：论文种类分类

最新推荐文章于 2024-05-14 20:41:32 发布

VIP文章 AnnoraJiao

最新推荐文章于 2024-05-14 20:41:32 发布

阅读量387

点赞数

分类专栏：数据分析实战文章标签：机器学习数据挖掘

本文链接：https://blog.csdn.net/weixin_42120499/article/details/112979639

版权

学术前沿趋势分析 Task4：论文种类分类

一、任务说明
二、任务思路
三、具体代码实现及解释

一、任务说明

学习主题：论文分类（数据建模任务），利用已有数据建模，对新论文进行类别分类；
学习内容：使用论文标题完成类别分类；
学习成果：学会文本分类的基本方法、TF-IDF等；

二、任务思路

我们可以借助论文的标题和摘要完成：

对论文标题和摘要进行处理；
选取title和abstract特征字段。
对论文类别进行处理；
构建文本分类模型；
分类可以使用TF-IDF+机器学习分类器、WordVec+深度学习分类器、Bert词向量等。

三、具体代码实现及解释

1、导入数据

我们需要的信息是论文的abstract和title以及论文类别categories，此处我们只选取部分数据进行分析。

data = []
with open("arxiv-metadata-oai-snapshot.json", 'r') as f: 
    for idx, line in enumerate(f): 
        d = json.loads(line)
        d = {
   'title': d['title'], 'categories': d['categories'], 'abstract': d['abstract']}
        data.append(d)
        if idx > 200000:
            break
        
data = pd.DataFrame(data)

我们可以将标题和摘要拼接一起完成分类。去除‘/n’，全部变为小写字母。

data['text'] = data['title'] + data['abstract']
data['text'] = data['text'].apply(lambda x: x.replace('\n',' '))
data['text'] = data['text']

最低0.47元/天解锁文章

AnnoraJiao

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
学术前沿趋势分析 Task4：论文种类分类

学术前沿趋势分析 Task4：论文种类分类一、任务说明二、任务思路三、具体代码实现及解释1、导入数据2、使用TF-IDF提取特征3、XGBoost模型4、深度学习方法一、任务说明学习主题：论文分类（数据建模任务），利用已有数据建模，对新论文进行类别分类；学习内容：使用论文标题完成类别分类；学习成果：学会文本分类的基本方法、TF-IDF等；二、任务思路我们可以借助论文的标题和摘要完成：对论文标题和摘要进行处理；选取title和abstract特征字段。对论文类别进行处理；构建文本分类
复制链接

扫一扫