简单爬虫：re和urllib

最新推荐文章于 2024-07-10 21:29:41 发布

Shannonnnn

最新推荐文章于 2024-07-10 21:29:41 发布

阅读量948

点赞数

分类专栏： Python

本文链接：https://blog.csdn.net/github_37216944/article/details/79170242

版权

本文介绍了如何使用Python的urllib模块获取网页数据，并结合正则表达式re来筛选出页面中的图片链接。通过编写getHtml()和getImg()函数，实现了从网页中提取图片URL，最后利用urllib.urlretrieve()方法将图片保存到本地。

摘要由CSDN通过智能技术生成

通过python 来实现一个简单的爬虫功能，把我们想要的图片爬取到本地。

一，获取整个页面数据
首先我们可以先获取要下载图片的整个页面信息。

#spider1.py

#coding=utf-8
import urllib

def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()
    return html

html = getHtml("http://tieba.baidu.com/p/2460150866")

print html

　　Urllib 模块提供了读取web页面数据的接口，我们可以像读取本地文件一样读取www和ftp上的数据。首先，我们定义了一个getHtml()函数:

　　urllib.urlopen()方法用于打开一个URL地址。

　　read()方法用于读取URL上的数据，向getHtml()函数传递一个网址，并把整个页面下载下来。执行程序就会把整个网页打印输出。

二，筛选页面中想要的数据

　　Pyth

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Shannonnnn

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

爬虫基础_urllib

demonscg的博客

02-06

1535

urllib库的结构 urllib库包含以下四个模块: request: 基本的HTTP请求模块 error: 异常处理模块 parse: 工具模块 robotparser: 识别robots.txt的模块 urlopen方法使用urlopen方法可以发送简单请求 API urllib.request.urlopen(url, data=None, [timeout,] *, cafile=None, capath=None, cadefault=False, context=None) url:

Python 爬虫--urllib 和 re 模块（第一篇）

weixin_49345590的博客

12-02

306

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理以下文章来源于腾讯云作者：keinYe ( 想要学习Python？Python学习交流群：1039649593，满足你的需求，资料都已经上传群文件流，可以自行下载！还有海量最新2020python学习资料。 ) 爬虫的主要用途即从网站上获取网页，并将网页中的有用信息解析出来。从网站上获取网页内容可以通过 python 内置的 urllib 模块来实现，至于信息的解析说起来比较复杂，pyt

参与评论您还未登录，请先登录后发表或查看评论

python网络爬虫之Urllib

最新发布

Appreciate(欣赏)

07-10

763

urllib的request模块提供了最基本的构造HTTP请求的方法，使用它可以方便地实现请求的发送并得到响应，同时它还带有处理授权验证（authentication）、重定向（redirection）、浏览器Cookies以及其他内容。

Python学习笔记-2(urllib、re)

从头开始的博客

12-04

810

经过Python学习之路-1，学习了Python的基础语法，加上用os模块写了一些代替批处理的文件管理工具，这次打算依葫芦画瓢，写一个爬虫(以前用java写过，据说python写起来很爽啊) 这次的参考博客是：Python爬虫入门一、简单爬虫爬取网页数据： values ={{"name":"li"}}; urllib.urlencode(values); #1.设置pos

py3+urllib+re，轻轻松松爬取双色球最近100期中奖号码

akb7208的博客

06-07

250

通过页面源码，发现使用正则表达式可以很方便的获取到我们需要的数据，最后循环写入txt文件。 (\d{2})表示两位数字 [\s\S]表示匹配包括“\r\n”在内的任何字符，匹配红球和蓝球之间的内容具体实现代码如下： import urllib.request import re url = 'http://baidu.lecai.com/lottery/draw/...

爬虫系列(六) 用urllib和re爬取百度贴吧

半虹小站

08-17

2402

这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧，并使用三种文件格式存储数据，下面先贴上效果图

python写爬虫时出现AttributeError: module ‘urllib‘ has no attribute ‘urlopen‘

董皓宇

10-20

559

首先需要检查自己的python环境是否与包相符合出现AttributeError: module ‘urllib’ has no attribute ‘urlopen’ 出现AttributeError: module ‘urllib’ has no attribute ‘request’ 这种错误都是与导入包是否合适有关在python3.X环境下包是这样的???? import urllib.re...

Python爬虫教程：利用urllib进行网络爬虫

# 1. 网络爬虫简介网络爬虫在当今信息爆炸的时代扮演着至关重要的角色，让我们一起来深入了解网络爬虫的基础知识...在数据分析领域，爬虫可以用来采集数据进行分析和挖掘。 ## 1.3 Python在网络爬虫中的应用 Pytho

基于re、urllib.request和BeautifulSoup的爬虫样本

08-12

基于re、urllib.request和BeautifulSoup的一个爬虫样本，实现目的是一些网页的源代码的地址查找并列出

python爬虫实例——基于BeautifulSoup与urllib.request

08-12

总之，理解并掌握`urllib.request`和`BeautifulSoup`的使用是Python爬虫初学者的基础课。通过实践这样的实例，你可以更深入地了解网络请求的原理，学习如何解析和提取HTML中的有用信息，从而为后续更复杂的爬虫项目...

Python3.x学习笔记[2.5]灵活使用urllib与re

lidongone的专栏

04-11

1204

我真的很无聊。。。为了让家里能最简单的用上免费的网络电话，我用

Python爬虫——Urllib

WwLK123的博客

07-11

3252

通过一个程序，根据url进行爬取网页，获取游泳信息通过程序模拟浏览器，去向服务器发起请求，获取响应信息。

基于urllib的简单爬虫

Moliam的博客

02-15

367

基于urllib的简单爬虫什么是爬虫python如何访问互联网URLlib实战爬取html有道翻译隐藏代理爬取妹子图片正则表达式异常处理Scrapy 本系列来源于B站视频。UP主为IT搬運工，系列视频为[小甲鱼]零基础入门学习python。点我直达什么是爬虫又称为网页蜘蛛，在网页上获取所需要的信息。 python如何访问互联网 url + lib= urllib URL 协议://IP地址/资源具体地址 lib urllib 实战爬取html 爬取网页html代码 import urllib.requ

urllib学习之爬虫

wangpi_csdn16的博客

03-14

441

1、urllib其实是一个包，包括了四个模块： urllib.request:用于打开和读取 URL urllib.parse：用于分解url urllib.error：包括了ullib.request产生的异常 urllib.robotparser：分解robots.txt文件 2、来说一下具体用法比如用于访问百度首先调用urllib包中request模块，然后用ur...

python urllib爬虫_python+urllib爬虫

weixin_33016287的博客

02-09

导入包import urllib.requestimport urllib.parse获取get请求response = urllib.request.urlopen("http://httpbin.org/get")print(response.read().decode('utf-8'))get超时(预备方案，问题最后解决使程序正常运行)try:response = urllib.reques...

爬虫解析Re 之(一) --- Re模块

weixin_30275415的博客

05-05

608

正则表达式正则表达式其实就是特殊的字符串, 帮助进行检索, 校验, 查询等行为，是对字符串操作的一种逻辑公式，事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符”，这个“规则字符” 来表达对字符的一种过滤逻辑。 Python提供的正则表达式机制: 需要导入模块 re 正则表达式使用场景验证的作用: 密码的验证用户名的验证邮箱手机号等等爬虫: 查询...

爬虫-urllib模块

zhihuiyu123的博客

09-17

236

这库是用来请求URL的，用来获取服务器资源常用的模块如下： urllib.request 处理各种协议扩展库 urllib.reponse 应答类 urllib.parse 解析 urllib.error 用来处理异常代码： from urllib import request # 导入request模块，可以发起请求 # 首先定义URL url = "http://ht...

Python爬虫之urllib库

小李学不完的博客

03-23

1940

urllib库的介绍、发送请求、异常处理、解析链接-parse模块、分析Robots协议、爬虫名称

Python爬虫：urllib、urllib2与Scrapy框架详解

这篇指南为初学者提供了Python爬虫入门所需的基本模块（urllib、urllib2和re）的使用方法，同时也揭示了Scrapy框架的优势和应用场景，对于希望深入学习Python爬虫的读者来说，这是一份非常实用的参考资料。...