Python爬虫__爬取贴吧图片和文本

最新推荐文章于 2024-08-14 11:00:39 发布

琳小白

最新推荐文章于 2024-08-14 11:00:39 发布

阅读量1w

点赞数 6

分类专栏： Web 文章标签： python 爬虫 bs4 图片 web

本文链接：https://blog.csdn.net/qq_24421591/article/details/52596076

版权

本文介绍了如何使用Python爬虫抓取贴吧中的图片和文本内容。首先，详细阐述了爬取图片的步骤，包括获取HTML代码、提取图片URL及下载图片。接着，展示了抓取文本的方法，通过分析HTML结构，定位并提取每楼的文本内容。最后，给出了代码实现和爬取结果的展示。

摘要由CSDN通过智能技术生成

1. 爬取图片

1.1 前言

这是一个李清照吧http://tieba.baidu.com/p/3825973883
里面有楼主上传的书法作品，每一楼的格式大致是这样，文本加上书法图片：

这里写图片描述

我当年年少，还不知道爬虫这个东西，又想把书法图片保存下来，于是一张张地把图片另存为，现在用爬虫来爬取每一楼的书法图片，解放一下人力：

1.2 爬取图片的流程可以总结如下：

1)爬取网页的html代码；
2)提取其中的图片url；
3)下载图片到本地。

1.3 代码

#coding:utf-8
#---------------------------------
#Created by linxiaobai 2016/09/19
#爬取百度贴吧图片
#---------------------------------
import urllib2
import urllib
import re

#打开贴吧的html
url="http://tieba.baidu.com/p/3825973883"
response=urllib2.urlopen(url)
html=response.read()

#提取其中所有的图片url(使用正则)
reg=r'src="(http://imgsrc.*?\.jpg)"'
imgre=re.compile(reg)
imlist=re.findall(reg,html)

#下载图片到本地
cnt=1
for imurl in imlist:
    print cnt
    print imurl
    urllib.urlretrieve(imurl,"%s.jpg"%cnt);
    cnt+=