爬虫基础 2.3 爬虫基本原理

最新推荐文章于 2024-11-15 14:43:32 发布

weixin_33970449

最新推荐文章于 2024-11-15 14:43:32 发布

阅读量94

点赞数

文章标签：爬虫 javascript json ViewUI

原文链接：http://www.cnblogs.com/binyang/p/10991009.html

版权

2.3 爬虫基本原理

2.3.1 爬虫概述

1 获取网页

使用请求库 urllib、 urllib2、request 请求库，向服务器发起数据请求，得到响应后，解析数据中的body部分可得到网页源代码。

2 提取信息

获取网页源代码后，分析源代码，提取信息

提取信息方式：

正则表达式匹配（比较麻烦）

CSS、xpath 解析库提取使用beautifulsoup、pyquery、lxml解析匹配数据

3 保存数据

提取到数据以后则进行规整化保存数据

保存方式1 保存为txt文本、json文本

保存方式2 数据库保存

Mysql

Redis

Mongodb

4 自动化程序

即自动化不断地请求，解析。

在自动化的过程中包括异常处理，错误重试，防封，保存数据。

2.32 可抓取的数据

一般来看只要是网页中的数据都可以抓取到

常规HTML网页，抓取匹配源代码

Json字符串 api接口的数据抓取更加方便

二进制数据流抓取后保存为对应格式文件

Css、javascript配置文件，同样抓取

只要是基于http/https 的协议的数据均可

2.3.4 JAVAscript渲染页面

Js渲染的页面中，在源代码的body部分使用的js加载，对于这种类型的则分析ajax后台接口，或者使用selenium splash模拟js的渲染来抓取。

转载于:https://www.cnblogs.com/binyang/p/10991009.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_33970449

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

LZHaini#Python3WebSpider#2.3-爬虫基本原理1

07-25

1. 获取网页 2. 提取信息 3. 保存数据 4. 自动化程序

爬虫技术系列课+Python+爬虫基础知识爬虫实例反爬机制+自学课程

04-04

1.1 爬虫概念及其工作原理 1.2 Python环境搭建与爬虫库介绍 1.3 爬虫的合法性与道德规范网络请求与HTML基础 2.1 HTTP协议基础 2.2 使用requests库发起网络请求 2.3 HTML结构解析与XPath/CSS选择器数据提取与处理 ...

参与评论您还未登录，请先登录后发表或查看评论

python爬虫必备的基本知识

一切都是热爱的结果

03-11

2406

网络爬虫（又被称为网页蜘蛛，网络机器人）就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做参考：http://c.biancheng.net/socket/什么是 Socket?Socket又称"套接字"，应用程序通常通过"套接字"向网络发出请求或者应答网络请求，使主机间或者一台计算机上的进程间可以通讯。三次握手四次挥手包与包之间的交换 TCP 协议方法描述。

爬虫基本原理入门

RHeng的博客

07-25

1837

爬虫（Web Crawler），又称为网络爬虫或网页蜘蛛，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。它们可以模拟浏览器行为，遍历网页并抓取网页中的信息，如文本、图片、链接等。接下来，我们会尝试使用Python等编程语言，结合相关库和工具，动手编写自己的爬虫程序，探索更多关于爬虫技术的奥秘。

爬虫基础-请求与响应

m0_73454688的博客

07-23

2124

爬虫（Web Crawler）是一种自动浏览网络的程序，它按照一定的规则自动访问互联网上的网页，并从中提取信息。爬虫的基本工作原理是通过发送HTTP请求获取网页内容，然后解析这些内容以发现其他链接，并继续访问这些链接，从而逐步构建起一个网页的索引数据库。：爬虫的主要目的是从互联网上收集数据。这些数据可以用于搜索引擎索引、市场研究、社交媒体分析、数据挖掘等。爬虫技术在数据获取和分析方面具有重要作用，但同时也需要谨慎处理相关的技术、法律和伦理问题。

爬虫基本原理及requests库用法

程序员小十一的博客

05-24

1899

文中介绍了爬虫基本原理及requests库的使用

2.3 爬虫的基本原理

我心自在天的博客

10-05

171

2.3.1 爬虫概述爬虫就是获取网页并提取和保存信息的自动化程序一般有4个步骤：获取网页提起信息保存数据自动化程序 1. 获取网页获取网页就是获取网页的源代码。源代码里面包含了网页的部分有用信息，只要把源代码获取下来，就能从中提取有用信息。 Python提供了许多库来帮助我们实现这个功能，如urllib,requests等。 2. 提取信息最常用的方法是采用正则表达式进行提取...

Python爬虫的基本原理简介及内容汇总

嵌入式技术与人工智能

03-13

5295

Python爬虫的基本原理简介一、HTTP请求过程二、爬虫网页请求方法介绍2.1 网页主要请求方法2.2 网页的主要请求头三、爬虫网页响应方法介绍一、HTTP请求过程二、爬虫网页请求方法介绍 2.1 网页主要请求方法方法描述 GET 请求页面，并返回页面内容 HEAD 类似于GET请求，只不过返回的响应中没有具体内容，主要用于获取报头 POST 大多用于提交表单或上传文件，数据包含在请求体中 PUT 从客户端向服务器传送的数据取代指定文档中的内容 DELETE 请求服

爬虫基本原理讲解（七）

yk 坤帝

03-14

1640

公众号：yk 坤帝后台回复爬虫基本原理讲解获取爬虫整理资料 1.什么是爬⾍？ 2.爬虫基本流程 3.什么是Request和Response? 4.Request中包含什么？ 5.Response中包含什么? 6.爬虫能抓怎样的数据？ 7.怎样来解析？ 8.为什什么我抓到的和浏览器器看到的不一样？ 9.怎样解决JavaScript渲染的问题？ 10.可以怎样保存数据 1.什么是爬⾍？请求网站并提取数据的自动化程序 2.爬虫基本流程 2.1 发起请求通过HTTP库向目标站点发起请求，即发送一个Re.

python基本网络爬虫代码_[Python3网络爬虫开发实战] 2.3-爬虫的基本原理

weixin_39937447的博客

11-23

我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数据就可以被抓取下来了。1. 爬虫概述简单来说，爬虫就是获取网页...

爬虫基础知识

Rory的博客

11-21

7207

注意：cookie内容要以键值对的形式存在。重载start_requests方法。

爬虫系列课+Python技术+爬虫与反爬+基础入门课

04-04

- 1.1 爬虫概念及其工作原理 - 1.2 Python环境搭建与爬虫库介绍 - 1.3 爬虫的合法性与道德规范 2. **网络请求与HTML基础** - 2.1 HTTP协议基础 - 2.2 使用requests库发起网络请求 - 2.3 HTML结构解析与XPath/...

Python爬虫基础知识.docx

07-04

### Python爬虫基础知识在大数据蓬勃发展的今天，网络数据已成为极具价值的信息来源。Python爬虫技术作为抓取网络数据的有效工具，在数据采集、搜索引擎优化、市场分析等多个领域扮演着重要角色。本文旨在为初学者...

如何绕过Captcha并使用OCR技术抓取数据

ip16yun的博客

11-13

819

在现代的网页数据抓取中，Captcha（全自动区分计算机和人类的图灵测试）作为一种防止爬虫和恶意访问的有效措施，广泛应用于各种网站。Captcha的主要目的是区分用户是人类还是程序，因此对于爬虫技术来说，它是一种极具挑战性的障碍。为了绕过Captcha，我们可以借助OCR（Optical Character Recognition，光学字符识别）技术，从图片中识别出字符，并结合代理IP技术提高爬虫的隐蔽性，减少被封禁的风险。本文将介绍如何使用OCR技术绕过Captcha，并通过示例展示如何实现这一过程。Ca

Python爬虫知识体系-----正则表达式-----持续更新

殷志鹏的博客

11-13

921

正则表达式，又称规则表达式正则表达式(regular expression)描述了一种字符串匹配的模式(pattern)正则匹配是一个模糊的匹配(不是精确匹配)re模块python自1.5版本开始增加了re模块，该模块提供了perl风格的正则表达式模式常用方法如下match()search()findall()finditer()

如何用Python爬虫精准获取商品历史价格信息及API数据