本次任务主要是做的文本分类任务,具体是使⽤论⽂文标题和摘要完成类别分类。
- 首先对论⽂文标题和摘要进行处理;
- 对论⽂类别进⾏处理;
- 构建⽂文本分类模型;
import re
import json
import pandas as pd
import matplotlib.pyplot as plt
data = []
with open('arxiv-metadata-oai-snapshot.json', 'r') as f:
for idx, line in enumerate(f):
d = json.loads(line)
d = {
'title': d['title'], 'categories': d['categories'], 'abstract': d['abstract']