python网络爬虫概述

最新推荐文章于 2024-10-18 00:00:00 发布

青田一草

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量1.2k

点赞数 9

文章标签： python 爬虫开发语言

本文链接：https://blog.csdn.net/weixin_40170866/article/details/136428228

版权

#一、网络爬虫的定义
网络爬虫是一种按照一定的规则自动地抓取网络信息的程序或者脚本。网络爬虫是根据一定的算法实现编程开发，主要通过URL实现数据的抓取和发掘。
通用的搜索引擎存在着一定的局限性：
（1）不同的搜索引擎对于同一个搜索会有不同的结果，搜索出来的结果未必是用户需要的信息。
（2）通用的搜索引擎扩大了网络覆盖率，但有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。
（3）随着网络上数据形式繁多和网络技术的不断发展，图片、数据库、音频、视频多媒体等不同数据大量出现，通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力，不能很好地发现和获取。
因此，为了得到准确的数据，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，可根据设定的抓取目标有目的性地访问互联网上的网页与相关的URL，从而获取所需要的信息。与通用爬虫不同，聚焦爬虫并不追求全面的覆盖率，而是抓取与某一特定内容相关的网页，为面向特定的用户提供准备数据资源。
#二、主要用到的库
Requests：自动爬取HTML页面，自动网络请求提交。
robots.txt：网络爬虫的规则，网络爬虫排除标准。
Beautiful Soup：解析HTML页面，并提取相关的信息。
Re：通过正则表达式的使用，提取页面关键信息。
Scrapy：为了爬取网站数据、提取结构性数据而编写的应用框架。
#三、python程序开发工具
常用的python IDE工具
文本工具类IDE：
IDLE
Notepad++
Sublime Text
Vim & Emacs
Atom
Komodo Edit
集成工具类IDE：
PyCharm
Wing
PyDev & Eclipse
Visual Studio
Anaconda & Spyder
Canopy
IDLE适用于：Python入门、功能代码简单直接、
行代码以内；
Sublime Text：专门为程序员开发的第三方专用编程工具，增强专业编程体验，多种编程风格。
Wing：公司维护，工具收费，调试功能丰富，版本控制，版本同步，适合多人共同开发。
Visual Studio & PIVS：微软公司维护，Win环境为主，调试功能丰富。
Eclipse：开源IDE开发工具，需要有一定开发经验。
PyCharm：社区版免费，专业版收费，绝大多数程序使用社区版就可完成。简单，集成度高，适合较复杂工程。
针对科学计算、数据分析的开发环境有Canopy、 Anaconda。Canopy由开发公司维护，工具收费，支持近500个第三方库，适合科学计算领域应用开发。Anaconda开源免费，支持近800个左右的第三方库。
适合自己的IDE才是最好的IDE。