百度贴吧图片简单爬虫（实验环境windows7）

最新推荐文章于 2024-07-09 15:58:38 发布

chiduozhu8801

最新推荐文章于 2024-07-09 15:58:38 发布

阅读量116

点赞数

文章标签：爬虫 python

原文链接：https://my.oschina.net/jinx2jk/blog/1846160

版权

参考网上例子，自己尝试写的，很简单，纯属娱乐

#!/usr/bin/python

import urllib
import re

def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html \\返回的是相关网址所有链接

def getList(html):
reg = r'<img class="BDE_Image" src="(.*?\.jpg)"' \\r单引号当中是需要过滤的信息标志
imgReg = re.compile(reg)
imgList = re.findall(imgReg,html)
return imgList \\返回的是所有图片的真实地址链接

if __name__=='__main__':
url = "https://tieba.baidu.com/p/5749961150" \\随意找的贴吧地址
html = getHtml(url )
imgList = getList(html)
x=0
for imgUrl in imgList: \\逐一把过滤后的图片真实链接发送给imgUrl变量
urllib.urlretrieve(imgUrl,'C:\\Python27\\py\\getjpg\\%s.jpg' % x) \\下载到指定位置并重命名
x += 1

----------------------------------------------------------------------------------------------------

模块及函数说明：

re.compile 将正则表达式编译成实例主要配合findall使用

re.findall 格式化为表形式如['a1','2b','c3']

urllib.urlretrieve 下载到指定位置（window必须写全路径,网上的例子没写我测试了没成功，记得写转义符）

urllib.urlopen(url) 打开一个网页获取所有内容

转载于:https://my.oschina.net/jinx2jk/blog/1846160

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

chiduozhu8801

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
百度贴吧图片简单爬虫（实验环境windows7）

参考网上例子，自己尝试写的，很简单，纯属娱乐 #!/usr/bin/python import urllib import re def getHtml(url): page = urllib.urlopen(url) html = page.read() ret...
复制链接

扫一扫