ICML2020 文章目录及下载链接

最新推荐文章于 2025-05-07 20:37:23 发布

颹蕭蕭

最新推荐文章于 2025-05-07 20:37:23 发布

阅读量5.3k

点赞数 5

CC 4.0 BY-SA版权

分类专栏：爪巴虫技术 # 机器学习文章标签： icml 2020 下载 paper

我们不生产知识，我们只是互联网的搬运工

本文链接：https://blog.csdn.net/itnerd/article/details/108328053

机器学习同时被 2 个专栏收录

136 篇文章

订阅专栏

爪巴虫技术

23 篇文章

订阅专栏

本文介绍了一种从ICML 2020会议网站批量下载论文的方法，利用Python解析JSON数据，抓取每篇论文的详细信息，并生成包含1086篇论文下载链接的目录。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2020 年会议线上召开，会议网站也和以往大不相同

官网本身就提供了文章的主题分类检索与下载

在这里插入图片描述

尽管如此，还是希望能够制作一份方便本地查找的目录，毕竟访问外网有点卡

下载 json 文件

通过网站页面源码分析，发现所有数据都在这份 icml_paper.json 文件中，把它下载下来：
https://icml.cc/static/virtual/data/icml_papers.json
在这里插入图片描述
你要是直接打开的话，就是这个样子，当然我们接下来就用 python 的 json 包来解析它！

解析 json 文件

import json
filename = 'icml_papers.json'
with open(filename, 'r') as file:
    content = file.read()
    js = json.loads(content)
print(len(js))   # 1086 篇文章

获取下载链接

json 文件中没有下载链接，需要跳转到单篇文章页面去下载

import requests
from bs4 import BeautifulSoup
import re

def get_download_link(id):
    url = 'https://icml.cc/virtual/2020/poster/'+str(id)  # 通过 id 跳转到单篇文章页面
    html = getPage(url)
    bsObj = BeautifulSoup(html, "lxml")
    return bsObj.find('a', {'href': re.compile('.*static\/paper_files\/icml\/2020\/.*.pdf')})['href']  # 在单篇文章页面获取下载链接

创建 tsv 文件

for j in js:
    with open('result.tsv','a', encoding='utf8') as file:
        item = []
        item.append(str(j['id']))
        item.append(j['content']['title'])
        item.append(', '.join(j['content']['authors']))
        item.append(', '.join(j['content']['keywords']))
        item.append(get_download_link(j['id']))
        s = '\t'.join(item) + '\n'
        print(s)
        file.write(s)