Download arxiv paper

最新推荐文章于 2023-12-15 11:13:36 发布

DuinoDu

最新推荐文章于 2023-12-15 11:13:36 发布

阅读量906

点赞数

分类专栏： python shell

本文链接：https://blog.csdn.net/duinodu/article/details/54881314

版权

python 同时被 2 个专栏收录

23 篇文章 0 订阅

订阅专栏

shell

12 篇文章 0 订阅

订阅专栏

1. Code

#!/usr/bin/env python
# -*- coding: utf-8 -*-

'''
###########
Usage:
python download.py site.txt(containing https://...)

'''

from selenium import webdriver
import time
from pymouse import PyMouse

m = PyMouse()

def pause(length=1):
    time.sleep(length)

def download(url):
    b = webdriver.Firefox()
    #b.set_page_load_timeout(60) # useless
    b.maximize_window()
    pause(1)

    b.get(url)
    pause(2)

    loading_time = 60

    dt = b.find_elements_by_tag_name('dt')
    dd = b.find_elements_by_tag_name('dd')
    assert(len(dt) == len(dd))
    dst_type = "Computer Vision"

    print b.get_window_size()
    bias = [254, 171]
    screenIsVertical = False
    if screenIsVertical:
        print "No implement when screen is vertical"
        return
    else:
        pos = [b.get_window_size()['width']/2 + bias[0], b.get_window_size()['height']/2 + bias[1]]

    for i in xrange(4, len(dt)):

        # no Computer Vision paper
        if dst_type not in dd[i].find_element_by_class_name('primary-subject').text:
            continue

        # no 'pdf' button
        try:
            dt[i].find_element_by_link_text('pdf').click()
        except Exception, e:
            continue

        pause(loading_time)

        b.find_element_by_id('download').click()
        pause(2)

        m.click(pos[0], pos[1], 1, 1)
        time.sleep(1)

        b.back()
        time.sleep(1)
        dt = b.find_elements_by_tag_name('dt')
        dd = b.find_elements_by_tag_name('dd')

    b.close()

def main():
    import sys
    if len(sys.argv) != 2:
        print(__doc__)
        return

    with open(sys.argv[1], 'r') as fid:
        urls = [x.split('\n')[0] for x in fid.readlines()]

    for url in urls:
        if url.startswith('#'):
            continue
        else:
            download(url)


if __name__ == "__main__":
    main()

2. Usage

python download.py site.txt

site.txt (example)

https://arxiv.org/find/all/1/ti:+AND+object+detection/0/1/0/all/0/1
https://arxiv.org/find/all/1/ti:+AND+object+detection/0/1/0/all/0/1?skip=25&query_id=a6b6ed358647ff57
#https://arxiv.org/find/all/1/ti:+AND+object+detection/0/1/0/all/0/1?skip=50&query_id=a6b6ed358647ff57
https://arxiv.org/find/all/1/ti:+AND+object+detection/0/1/0/all/0/1?skip=75&query_id=a6b6ed358647ff57