python下载图片、已知url_使用Python / urllib / beautifulsoup从URL批量下载文本和图像?...

我一直在浏览这里的几篇帖子,但我无法用

Python从批量下载图片和文本来给定URL.

import urllib,urllib2

import urlparse

from BeautifulSoup import BeautifulSoup

import os, sys

def getAllImages(url):

query = urllib2.Request(url)

user_agent = "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; .NET CLR 1.1.4322; .NET CLR 1.0.3705)"

query.add_header("User-Agent", user_agent)

page = BeautifulSoup(urllib2.urlopen(query))

for div in page.findAll("div", {"class": "thumbnail"}):

print "found thumbnail"

for img in div.findAll("img"):

print "found image"

src = img["src"]

if src:

src = absolutize(src, pageurl)

f = open(src,'wb')

f.write(urllib.urlopen(src).read())

f.close()

for h5 in div.findAll("h5"):

print "found Headline"

value = (h5.contents[0])

print >> headlines.txt, value

def main():

getAllImages("http://www.nytimes.com/")

以上是一些更新的代码.会发生什么,什么都不是.代码没有找到任何带有缩略图的div,显然,没有任何结果打印….所以可能我错过了一些指向获取包含图像和标题的正确div?

非常感谢!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值