Learning Scrapy 笔记（1）

最新推荐文章于 2020-11-01 15:01:14 发布

helanfeixue

最新推荐文章于 2020-11-01 15:01:14 发布

阅读量121

点赞数

分类专栏： Scrapy 文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/helanfeixue/article/details/54617497

版权

Scrapy 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

一、Scrapy 简介

Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。它的优势在于它是一个框架，任何人可以根据需求方便进行更改。

二、HTML 和 XPath

在学习爬虫之前，我们需要先对网站的结构有一些基本的了解。

从输入网址（或点击一个链接）到网页在浏览器中呈现出来需要4个步骤：

1. 将URL输入给浏览器。URL的第一部分(域名，比如gumtree.com)是用来在web上找到对应的服务器。该URL以及一其他数据，（例如cookie）形成发送到该服务器的请求。

2. 服务器返回一个HTML页面给浏览器。要注意一些服务器也许会返回其它格式，比如XML，JSON...现在只考虑HTML。

3. HTML被浏览器转换成一个内部树表示，通常叫做：Document Object Model(DOM)。

4. 基于一些布局规则，内部表示最终被呈现为在屏幕上看到的视觉表示。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Learning Scrapy 笔记（1）

一、Scrapy 简介Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。它的优势在于它是一个框架，任何人可以根据需求方便进行更改。二、HTML 和 XPath在学习爬虫之前，我们需要先对网站的结构有一些基本的了解。从输入网址（或点击一个链接）到网页在浏览器中呈现出来需要4个步骤：1. 将URL输入给浏览器。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。