Python初级爬虫（0）-爬虫原理

最新推荐文章于 2023-07-14 10:38:51 发布

我的猪仔队友

最新推荐文章于 2023-07-14 10:38:51 发布

阅读量796

点赞数 1

本文链接：https://blog.csdn.net/qq_34100655/article/details/78776195

版权

Python作为现在业界十分火热的一门语言，岗位需求大、待遇好、前景光明、学习简单，实在是我的好去处。利用Python可以去如下领域：全栈工程师、爬虫、数据分析或数据挖掘、人工智能等。目前，我是在学习爬虫。在一周阅读完《零基础入门学习Python》这本书之后，就开始在网上找一些爬虫实例来做了。以下是我自己的理解。

爬虫，其实就是模仿浏览器的功能，在万维网上检索自己需要的信息，例如下载美女图片、文本信息等等。通常，数据分析这类工作，第一步是收集数据，往往就是通过爬虫这种技术手段来实现的。

既然是模仿浏览器，那么首先要理解网页的基本原理。这也是网上诸多教程说的很清楚的。当用户通过浏览器，在网上查看一些网页的时候，本质上是向服务器发送了一些请求（Request），然后服务器会返回（Response）一些html信息；然后，浏览器将这些html（超文本传输语言）解析出来，就是我们平时在网页上看的文字、图片、视频、外链接了。

因此，爬虫实现的原理，与上述过程类似，可归纳为：发送网页请求；解析html；下载所需信息，这三部分即可。

这些功能，都已经有很成熟的Python包来实现，我们只需要了解这些包的用法，会用就行，不用开发包，因此不用涉及到很底层的东西。对于萌新来说，就很容易上手。“发送网页请求”，用到的是Resquests包，或者urllin.requests模块，我喜欢前者；“解析html”，会用到lxml.etree、re等包；下载信息，则只需要用open-write-close这三连函数就可以了。这是我目前习得的内容。

当然，Python写爬虫也不可能短短2-3周就掌握的很好，需要长久的学习。实际学习的过程中，会遇到很多问题，例如：我想把下载的图片保存在另外的文件夹里面，就需要用到os包新建文件夹、我想给每一幅图起网页上的名字，这个问题我还没解决、用etree的xpath/re包的compile-findall套路查询关键字符，我还很不熟悉、网页翻页及异步加载，如何用Python去爬取，也没有完全搞懂。

总之，这门语言上手不难，但仍需要做极多的项目，反复揣摩代码，才能成功。这是这两周的学习心得。

我的猪仔队友

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python初级爬虫（0）-爬虫原理

Python作为现在业界十分火热的一门语言，岗位需求大、待遇好、前景光明、学习简单，实在是我的好去处。利用Python可以去如下领域：全栈工程师、爬虫、数据分析或数据挖掘、人工智能等。目前，我是在学习爬虫。在一周阅读完《零基础入门学习Python》这本书之后，就开始在网上找一些爬虫实例来做了。以下是我自己的理解。爬虫，其实就是模仿浏览器的功能，在万维网上检索自己需要的信息，例如下载美女图片、文...
复制链接

扫一扫