python beautifulsoup下载_python – 使用请求和BeautifulSoup下载文件

这会将页面中包含原始文件名的所有文件写入pdfs /目录.

import requests

from bs4 import BeautifulSoup as bs

import urllib2

_ANO = '2013/'

_MES = '01/'

_MATERIAS = 'matematica/'

_CONTEXT = 'wp-content/uploads/' + _ANO + _MES

_URL = 'http://www.desconversa.com.br/' + _MATERIAS + _CONTEXT

# functional

r = requests.get(_URL)

soup = bs(r.text)

urls = []

names = []

for i, link in enumerate(soup.findAll('a')):

_FULLURL = _URL + link.get('href')

if _FULLURL.endswith('.pdf'):

urls.append(_FULLURL)

names.append(soup.select('a')[i].attrs['href'])

names_urls = zip(names, urls)

for name, url in names_urls:

print url

rq = urllib2.Request(url)

res = urllib2.urlopen(rq)

pdf = open("pdfs/" + name, 'wb')

pdf.write(res.read())

pdf.close()

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值