论文种类分类方法

该文介绍了一种论文分类方法,通过结合标题和摘要,利用TF-IDF提取特征,并使用深度模型进行多标签分类训练。
摘要由CSDN通过智能技术生成

任务说明

  • 学习主题:论文分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;
  • 学习内容:使用论文标题完成类别分类;
  • 学习成果:学会文本分类的基本方法、TF-IDF等;

使用论文的标题和摘要来做分类

# packages is all you need
import seaborn as sns
from bs4 import BeautifulSoup
import re
import requests 
import json
import pandas as pd
import matplotlib.pyplot as plt

提取数据

data = []

with open('arxiv-metadata-oai-2019.json','r')as f:
    for idx, line in enumerate(f):
        d = json.loads(line)
        d = {
   'title':d['title'], 'categories':d['categories'], 'abstract':d['abstract']}
        data.append(d)
        
        if idx >200000:
            break
data = pd.DataFrame(data)
data.head()
title categories abstract
0 Remnant evolution after a carbon-oxygen white ... astro-ph We systematically explore the evolution of t...
1 Cofibrations in the Category of Frolicher Spac... math.AT Cofibrations are defined in the category of ...
2 Torsional oscillations of longitudinally inhom... astro-ph We explore the effect of an inhomogeneous ma...
3 On the Energy-Momentum Problem in Static Einst... gr-qc This paper has been removed by arXiv adminis...
4 The Formation of Globular Cluster Systems in M... astro-ph The most massive elliptical galaxies show a ...

我们将摘要和标题拼接到一起

data['text'] = data['title'] + data['abstract']

data['text'] = data['text'].apply(lambda x: x.replace('\n',' '))
data['text'] = data['text']</
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值