【Python】网页爬取CVPR论文

动机利用python自动下载 cvpr论文流程获取网页内容找到所有论文链接下载1. 获取网页内容所用模块:requests重要函数:requests.get输出:web_context参考链接: http://blog.csdn.net/fly_yr/article/details/51525435#get web contextdef ge...
摘要由CSDN通过智能技术生成

动机

利用python自动下载 cvpr论文

流程

  1. 获取网页内容
  2. 找到所有论文链接
  3. 下载

1. 获取网页内容

所用模块:requests

重要函数:requests.get

输出:web_context

参考链接:
http://blog.csdn.net/fly_yr/article/details/51525435

#get web context
def get_context(url):
    """
    params: 
        url: link
    return:
        web_context
    """
    web_context = requests.get(url)
    return web_context.text

2. 找到论文链接

使用模块:import re

重要函数:re.findall()

输出:cvpr论文的下载链接列表

论文Pdf链接形式:
href=“content_cvpr_2016/papers/Hendricks_Deep_Compositional_Captioning_CVPR_2016_paper.pdf”>pdf

使用正则化寻找所有符合此文本形式的链接

参考链接:https://www.cnblogs.com/MrFiona/p/5954084.html
http://blog.csdn.net/u014467169/article/details/51345657

#find paper files

'''
(?<=href=\"): 寻找开头,匹配此句之后的内容
.+: 匹配多个字符(除了换行符)
?pdf: 匹配零次或一次pdf
(?=\">pdf): 以">pdf" 结尾
|: 或
'''
#link pattern: href="***_CVPR_2016_paper.pdf">pdf
link_list = re.findall(r"(?<=href=\").+?pdf(?=\">pdf)|(?<=href=\').+?pdf(?=\">pdf)",web_context)
#name pattern: <a href="***_CVPR_2016_paper.html">***</a>
name_list = re.findall(r
  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值