python爬取网页链接和静态文件链接_python爬虫判断url是html还是文件下载链接

最新推荐文章于 2023-09-26 20:00:00 发布

weixin_39761822

最新推荐文章于 2023-09-26 20:00:00 发布

阅读量401

点赞数

文章标签： python爬取网页链接和静态文件链接

在实际爬网页的过程中，一般的过程是一次调用下面的三个函数：

req = urllib2.Request(url)

response = urllib2.urlopen(req)

html = response.read()

所得到链接的内容就是保存在html中，然后便可以进行解析了。

但是在实际的爬虫中，我们所遇到的url不只是有html文件的，还有那些下载文件的链接，而对于这些链接对于爬取整个网络的框架是没有帮助的，不应当对其调用read函数获取内容。所以就需要对url所链接文件的类型进行判断从而过滤掉非html类型的链接。

对于文件类型的判断，是通过http header头部的Content Type项的内容来进行判断的。对于html类型Content Type的内容为“text/html”，其他的可见网址：http://tool.oschina.net/commons。判断的代码如下：

HttpMessage = response.info()

ContentType = HttpMessage.gettype()

if "text/html" != ContentType:

如果是”text/html”类型的，则使用read函数，然后进行解析，否则进行下一个url的解析

上面的方法是python2使用的urllib2，如果在python3中是使用urllib

url = 'http://pan.wouuz.com/upload/attach/20190216/1550303718687036456.rar'

resp = urllib.request.urlopen(url)

HttpMessage = resp.info()

print(HttpMessage.get("Content-Type"))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39761822

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

python重定向html_Python烧瓶render_template返回HTML脚本，而不是重定向到HTML页面

weixin_39984105的博客

12-06

1458

我有一个Python脚本，它使用Flask Web框架让用户提出问题并根据某些问题，应用程序应该向用户提出一些问题第二个网页。对问题的回答将根据问题进行评估并显示在初始网页上。Python烧瓶render_template返回HTML脚本，而不是重定向到HTML页面model.py### Importing Flask ###from flask import Flask, render_temp...

Python爬虫——简单网页抓取（实战案例）小白篇_python爬虫爬取网页数据

2401_84562810的博客

05-02

1406

pythonkw = input(‘请输入要翻译的英文单词：’)data = {‘kw’: kw# 由于百度翻译没有反扒措施，因此可以不写请求头‘referer’: ‘百度翻译-200种语言互译、沟通全世界！’,

参与评论您还未登录，请先登录后发表或查看评论

用Python区分静态与动态网页

苏啊苏的博客

03-22

3970

用Python区分静态与动态网页最近导师分派了一个任务，需要爬取很多数据，发现有的url是静态的，有的是动态加载的，用程序去爬取肯定要调用不同的代码，要实现自动爬取就先要区别是静态网页还是动态加载数据的页面。环境 Python 3.6 32bit 查询资料为了区分这两种页面的不同，我查询了很多页面上提供的信息，发现网页分为动态、静态和伪静态。 htm或html静态或伪静态，asp、jsp

python 判断url链接是否有效判断文件下载链接是否有效

热门推荐

学者的博客

11-10

1万+

其实非常简单 from urllib import request with request.urlopen("http://down.dbcxz1.net/20181105/BigBaiCai_UEFI_bd.exe") as file: print(file.status) print(file.reason) 结果： 200 OK 如果链接指向一个文件也不怕，因为fi...

为什么爬取的图片是HTML,使用python 爬虫，爬取图片

weixin_35448535的博客

06-04

450

一、需求：用python实现去内涵段子里面下载网页当中的图片到本地当中二、实现：1、获取要爬取的URL地址2、设置headers3、请求网页内容，把html内容转换成XML4、解析地址内容，进行图片下载三、开始操作：以下图为例子1、获取要爬取的URL地址:url="http://www.neihan8.com/gaoxiaomanhua/index_2.html"2、设置headers:heade...

Python爬虫—requests、url管理器、HTML

好人一生快乐

11-24

867

1.requests 2.url管理器 3.HTML超文本标记语言

python3 爬虫爬取静态网页和动态网页下载图片案例.rar

04-05

python3 爬虫爬取静态网页和动态网页下载图片案例.rar python3 爬虫爬取静态网页和动态网页下载图片案例.rar python3 爬虫爬取静态网页和动态网页下载图片案例.rar python3 爬虫爬取静态网页和动态网页下载图片案例....

Python使用爬虫爬取静态网页图片的方法详解

09-20

Python爬虫用于爬取静态网页图片的方法涉及到网络爬虫的基本原理和Python的相关库。首先，爬虫的主要步骤包括下载网页、管理URL以及解析网页内容。在Python中，我们可以使用内置的`urllib2`或第三方库`requests`作为...

python爬虫，爬取多个页面数据，爬取某静态网页信息并保存文件

05-12

2.1 利用所学知识爬取某静态网页信息并保存文件。 3 课程设计过程与内容（字体字号为四号宋体） "3.1"资料收集与文献调研", "3.2": "理论学习与原理探讨", "3.3": "系统设计与模块划分", "3.4": "编码实现与调试...

python抓取网页中链接的静态图片

09-20

总的来说，Python抓取网页中链接的静态图片涉及到的关键技术包括HTTP请求、HTML解析和文件操作。`BeautifulSoup`负责解析HTML并定位到图片元素，`urllib.request`处理网络请求和响应，而文件操作则确保图片数据能被...

网页如何监听url是下载还是预览？

xueyoubangbang的博客

10-15

1229

在Android开发的过程中，如何使用webview去加载网页时，有时候会设计到下载链接，这个时候可能会需要终端去下载，这个时候我们会设置 webView.setDownloadListener(new MyWebViewDownLoadListener()); 那么我们就会好奇，什么样的链接会走这个监听呢？这就涉及到了htttp的响应头的问题 Content-Type ：表示后面的文档属于什么MIME类型。Servlet默认为text/plain，但通常需要显式地指定为t...

Python爬虫判断url链接的是下载文件还是html文件

u014209688的专栏

10-05

9009

最近在写一个网络爬虫的代码，提供命令行来下载文件或者是打印根域名下指定节点及深度的子节点。用的是urllib2库，算是比较简单，但是功能并没有很强大。说重点吧，在实际爬网页的过程中，一般的过程是一次调用下面的三个函数： req = urllib2.Request(url) response = urllib2.urlopen(req) html = response.read() 所得到链

判断页面是否为html,HTML5中怎么判断用户是否正在浏览页面

weixin_30938397的博客

06-03

340

满意答案alc2942482017.05.10采纳率：49%等级：9已帮助：2667人用JS来判断：function myBrowser() {var userAgent = navigator.userAgent; //取得浏览器的userAgent字符串var isChrome = userAgent.indexOf("Chrome") > -1; //判断是否Chrome浏览器...

python测试url是否可访问，网站是否连通的方法

码农研究僧的博客

07-08

7587

一般这种方法用在校验比如前端界面传回后端的url，如果返回值不是200，不保存其值调用的接口不通，直接返回非200 爬虫网站，验证url是否可爬取等信息

【爬虫系列】Python 爬虫入门（2）

小确幸的博客

11-11

5350

这篇重点说明，如何识别网站反爬虫机制及应对策略，使用 Selenium 模拟浏览器操作等内容

一看就明白的爬虫入门讲解：基础理论篇

m0_48891301的博客

09-26

这种情况是由于虽然网页显示时，内容在HTML标签里面，但是其实是由于执行js代码加到标签里面的，所以这个时候内容在js代码里面的，而js的执行是在浏览器端的操作，所以用程序去请求网页地址的时候，得到的response是网页代码和js的代码，所以自己在浏览器端能看到内容，解析时由于js未执行，肯定找到指定HTML标签下内容肯定为空，这个时候的处理办法，一般来讲主要是要找到包含内容的js代码串，然后通过正则表达式获得相应的内容，而不是解析HTML标签。所以弄清楚这其中的原理，并且耐心分析很重要。

《Python3 网络爬虫开发实战》：HTML基本原理

qq_34589842的博客

09-11

1026

我们先观察第一个网络请求，即 www.baidu.com，其中各列的含义如下。第一列 Name：请求的名称，一般会将 URL 的最后一部分内容当作名称。第二列 Status：响应的状态码，这里显示为 200，代表响应是正常的。通过状态码，我们可以判断发送了请求之后是否得到了正常的响应。第三列 Protocol：请求的协议类型，这里 http/1.1 代表是 HTTP 1.1 版本，h2 代表 HTTP 2.0 版本。第四列 Type：请求的文档类型。

python - 爬虫之了解url网址概念和HTML基础

current的博客

04-29

1257

静态网页是标准的 HTML 文件，通过 GET 请求方法可以直接获取，文件的扩展名是.html、.htm等，网面中可以包含文本、图像、声音、FLASH 动画、客户端脚本和其他插件程序等。静态网页是网站建设的基础，早期的网站一般都是由静态网页制作的。我们知道，当网站信息量较大的时，网页的生成速度会降低，由于静态网页的内容相对固定，且不需要连接后台数据库，因此响应速度非常快。在编写一个爬虫程序前，首先要明确待爬取的页面是静态的，还是动态的，只有确定了页面类型，才方便后续对网页进行分析和程序编写。

python spider 爬虫之 urllib系列 urlretrieve下载照片、视频网页

u013400314的博客

06-21

1550

python 中集成了 urllib。

python爬虫爬取静态网页数据