网络爬虫流程与注意事项

最新推荐文章于 2024-05-13 10:00:00 发布

梦子mengy7762

最新推荐文章于 2024-05-13 10:00:00 发布

阅读量1.2k

点赞数

分类专栏： python 数据分析爬虫文章标签：爬虫 python 开发语言

本文链接：https://blog.csdn.net/ITF_001/article/details/122091401

版权

本文介绍了网络爬虫的工作流程，包括设置采集目标、处理HTTP请求、解析网页、智能解析方法（readability、疏密度判断、Scrapyly自学习、深度学习）以及数据存储（文件、数据库、搜索引擎、云存储）。同时强调了爬虫的注意事项，如处理相对链接、设置代理、限制下载速度和避免爬虫陷阱。

摘要由CSDN通过智能技术生成

在写爬虫之前，还是需要了解一些爬虫的基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies 基本原理等。
网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。
爬虫流程：
1、设置采集目标网站（主页）并获取网站数据。
2、当服务器无法访问时，按照指定的重试次数尝试重新下载页面。
3、在需要的时候设置用户代理或隐藏真实IP，否则可能无法访问页面。
4、对获取的页面进行必要的解码操作然后抓取出需要的信息。
5、在获取的页面中通过某种方式（如正则表达式）抽取出页面中的链接信息。
6、对链接进行进一步的处理（获取页面并重复上面的动作）。
7、将有用的信息进行持久化以备后续的处理。
爬虫的解析与储存
1、解析
对于解析来说，对于 HTML 类型的页面来说，常用的解析方法其实无非那么几种，正则、XPath、CSS Selector，另外对于某些接口，常见的可能就是 JSON、XML 类型，使用对应的库进行处理即可。最后，如果你的时间不是很紧张，并且又想快速的python提高，最重要的是不怕吃苦，建议你可以架尉♥信（同音）：2028979958 ，那个真的很不错，很多人进步都很快，需要你不怕吃苦哦！大家可以去添加上看一下~
这些规则和解析方法其实写起来是很繁琐的

最低0.47元/天解锁文章

梦子mengy7762

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
网络爬虫流程与注意事项

在写爬虫之前，还是需要了解一些爬虫的基础知识，如 HTTP 原理、网页的基础知识、爬虫的基本原理、Cookies 基本原理等。网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。
复制链接

扫一扫

专栏目录