Python爬虫入门——爬取贴吧图片

最新推荐文章于 2024-08-08 16:43:27 发布

江尹城

最新推荐文章于 2024-08-08 16:43:27 发布

阅读量1.3w

点赞数 9

分类专栏： python 文章标签： python 爬虫 Python入门

本文链接：https://blog.csdn.net/z49434574/article/details/51552088

版权

最近忽然想听一首老歌，“I believe” 于是到网上去搜，把几乎所有的版本的MV都看了一遍（也是够无聊的），最喜欢的还是最初版的《我的野蛮女友》电影主题曲的哪个版本，想起女神全智贤，心血来潮，于是就想到了来一波全MM的美照，哪里有皂片呢？自然是百度贴吧了。

放上链接-————

http://tieba.baidu.com/p/3466236659

爬取贴吧图片是非常简单的一件事，我们要做的是这么几步：

1、获取要爬取的网址

2、获取此网址的HTML源码

3、用正则表达式找出源码中的图片地址

4、下载图片，完活儿！

就是这么简单。

下面来看代码：

一、预备：

首先要引入相应的python模块。

import re
//正则表达式模块，用来匹配图片地址
import urllib
//用来获取HTML源码
import sys  
reload(sys) 
sys.setdefaultencoding('utf8')
//解决文字编码的问题，事实上我的电脑没有这段也OK

二、获取网址源码这一部分十分简单，就是调用urllib模块的函数，直接上代码

def getHtml(url):
    page = urllib.urlopen(url)
    html =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

江尹城

关注关注

9
点赞
踩
27

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python实现爬取百度贴吧图片

wukai0909的博客

03-10

686

本文最初参考： http://www.cnblogs.com/fnng/p/3576154.html#!comments 有一个缺点就是只能爬取网页的第一页的图片，而整个帖子有70多页的内容图片。 #coding=utf-8 import urllib import re def getHtml(url): page = urllib.urlopen(url)

python爬虫，爬取图片

10-17

简单，易懂，容易上手，适合初学者。python版本使用的python3，BeautifulSoup 需要安装

4 条评论您还未登录，请先登录后发表或查看评论

python爬取百度图片详细教程

人生苦短，还不用Python？

08-02

3686

首先通过urllib获取网页的源码 ''' 遇到不懂的问题？Python学习交流群：821460695满足你的需求，资料都已经上传群文件，可以自行下载！ ''' # 定义一个getHtml()函数 def getHtml(url): try: page = urllib.urlopen(url) # urllib.urlopen()方法用于打开一个URL地址 ...

Python入门必备知识总结（建议收藏再用）

最新发布

Python_trys的博客

08-08

1180

python 是一种面向对象的解释性计算机程序设计语言。python由荷兰人Guido van Rossum 于1989年发明。1991年，第一个Python编译器诞生。它是用C语言实现的，并能够调用C语言的库文件。从一出生，Python已经具有了：类，函数，异常处理，包含表和词典在内的核心数据类型，以及模块为基础的拓展系统。1994年1月 python 1.0诞生，增加lambda，map，filter and reduce1999年，python web的鼻祖 Zope 1 发布。

python爬取百度贴吧Jpg图片

weixin_34376562的博客

11-11

101

主要实现一个简单的爬虫，从一个百度贴吧页面下载图片。下载图片的步骤如下：获取网页html文本内容；分析html中图片的html标签特征，用正则解析出所有的图片url链接列表；根据图片的url链接列表将图片下载到本地文件夹中。代码import requestsimport re# 根据url获取网页html内容def getHtmlContent(url): page = requests.g...

python爬取百度贴吧图片库_Python爬虫爬取百度贴吧的图片

weixin_39916360的博客

12-04

397

根据输入的贴吧地址，爬取想要该贴吧的图片，保存到本地文件夹，仅供参考：#!/usr/bin/python#_*_coding:utf-8_*_import urllibimport urllib2import reimport osimport sysreload(sys)sys.setdefaultencoding("utf-8")#下载图片class GetPic:#页面初始化def __in...

python网络爬图_Python爬虫爬图片需要什么

weixin_39943586的博客

11-29

Python爬虫爬图片需要什么？下面用两种方法制作批量爬取网络图片的方法：第一种方法：基于urllib实现要点如下：1.url_request = request.Request(url)2.url_response = request.urlopen(url) 或者 url_response = request.urlopen(url_request)3.data=url_response .r...

用Python爬取百度贴吧中的图片

欢迎来到李奇峰的数据世界

09-13

364

首先，我理解中的爬虫就是一个网页抓取工具和信息筛选工具的集合。其中的工作原理无非就是首先获取到网页的源码，然后再通过筛选工具，将想要的信息筛选出来，这样就成了以下为程序的源代码__author__ = 'Liqifeng' # -*- coding:utf-8 -*-from urllib import request import urllib import re import os#爬取贴吧

利用Python爬取百度贴吧图片

weixin_34138521的博客

11-08

247

背景介绍我大一的时候学校就开设了 python，但是并没有好好学，基本等于是什么也不会，最近才开始看，所以本身也是摸着石头过河，见谅... 心得讲真的，爬虫确实不像别人想象的那样简单，爬虫首先要静下心来，细心寻找目标网站的布局规律，最重要的是 url 的变化，这是一个考验耐心与细心的过程；爬虫没有一个固定的套路，我们得时刻周旋于各种反...

Python爬虫小例子——爬取51job发布的工作职位

12-17

不知从何时起，Python和爬虫就如初恋一般，情不知所起，一往而深，相信很多朋友学习Python，都是从爬虫开始，其实究其原因，不外两方面：其一Python对爬虫的支持度比较好，类库众多。其二Pyhton的语法简单，入门容易...

Python 爬虫实战——爬取视频（二）

python03012的博客

12-28

2258

上一篇讲了如何去获取标题和视频链接。这篇就跟大家讲一下如何去下载这些视频。本篇会以标题和视频链接为突破口，来寻找视频的下载链接藏在哪里。注意：分上下两篇来写，请先看Python 爬虫实战——爬取视频（一）。此程序是在Python 3.11.6 版本的环境下编写的，注意哦要不然程序可能运行不起来。运行完上面的程序，就会得到下面的东西。

python 爬虫入门 —— 爬取天猫搜索结果

油腻Unirithe的博客

01-29

1186

最终效果：文章目录前言1.实现步骤2. 获取网页url2.1 requests模块2.2 分析url3.获取静态页面4. 利用正则表达式提取有用信息5.转换成DataFrame对象6.修改DataFrame对象中一列的属性7.数据处理——排序+重置序号8.实现代码（全）9. 总结前言作为初学者，深知实现这样的功能简直是入门中的入门，但是为了掌握python爬虫，不妨就从最简单的测试开始入手。该篇文章只实现了爬取天猫搜索结果的第1页信息，因为从第2页开始就需要进行登陆验证，还有复杂的验证过程，因目前暂

Python爬取百度贴吧帖子的图片

itsxwz

07-13

400

贴吧：美图吧帖子：https://tieba.baidu.com/p/5838004691 一、目标通过Python下载任意百度贴吧帖子的图片并保存到本地。二、分析网址第一页第二页第三页我们可以发现：帖子的页数会形成一个很有规律的网址： https://tieba.baidu.com/p/5838004691?pn=1 最后的数字即页数三、分析网页我们点击帖子的图片之后...

python爬虫爬取百度贴吧图片

why12345678901的博客

08-29

397

import requests from urllib.parse import quote from bs4 import BeautifulSoup import os #文件名里不能有l中的特殊符号需要删除 def amendName(s): '''adjust string s to meet the demand of Windows file naming. ''' nam...

python爬取百度贴吧图片

qq_35723619的博客

10-23

324

这次爬虫使用python3爬取我没需要引入lxml库：创建爬取页面的函数爬取贴吧列表，通过lxml获取到每个帖子的链接地址fulllink 通过上面函数获取的帖子详细地址，访问每个帖子的详情页面，获取img的src 拿到img的下载地址进行下载：创建测试调度器：测试结果：下完成！刚刚学习请多指教：上一篇介绍的是从百度贴吧读取信息：https:...

"大学生Python爬虫入门指南——实用工具与实战技巧

《大学生 Python爬虫入门指南》是一本面向大学生的Python爬虫入门教程。本书共分为五个章节，分别介绍了Python爬虫的基础知识、常用工具、实战案例和进阶内容。第一章《Python爬虫基础》首先介绍了什么是爬虫，它...