python爬虫文献综述_基于Python下的爬虫综述及应用

最新推荐文章于 2023-07-20 16:14:16 发布

商厚泽

最新推荐文章于 2023-07-20 16:14:16 发布

阅读量2.1k

点赞数 1

文章标签： python爬虫文献综述

本文链接：https://blog.csdn.net/weixin_42458937/article/details/112932533

版权

98 Internet Application 互联网 + 应用引言：如今，大数据已经进入我们的各个领域，我们的工作及应用越来越需要获取大量的数据。我们可以想象在一张蜘蛛网上沿着我们所需的方向爬取猎物(数据)的感觉。实际上爬虫就是通过人为的模拟浏览器行为，获取站点的HTML 代码、JSON 数据以及其它相关内容到本地，保存以便日后自己使用。一、爬虫技术 1、爬虫简介。爬虫，应该称为网络爬虫，也叫网页蜘蛛、网络机器人、网络蚂蚁等。其实，搜索引擎，就是网络爬虫的应用者。但搜索引擎不能对所需网站及特定数据进行获取，因此，需要自己开发爬虫来解决问题。 2、爬虫分类。当前主要爬虫从大体上可分为聚焦爬虫和通用爬虫。通用爬虫常见的就是搜索引擎，无差别的收集数据、存储，提取关键字，构建索引库，给用户提供搜索接口。聚焦爬虫是指有针对性的编写特定领域数据的爬取程序，针对某些类别数据采集的爬虫，是面向主题的爬虫。 3、爬虫架构。爬虫架构分为 3 部分：(1)URL 资源管理器：存放已爬和未爬的 URL。(2)网页下载器：字符串格式的网页保存方式。(3)网页解释器：进行数据解析。 4、爬虫的一般流程：(1)初始一批 URL，将 URL 放在待爬取队列。(2)取出 URL，通过 DNS 解析 IP，对 IP 对应站点下载 HTML 页面，保存本地服务器，爬取完成后放入已爬取队列。(3)分析网页，找出里面URL链接，重复(2)。二、基础 Python 爬虫的分析 2.1Python 语言的优势 (1)简单方便上手，兼容性强，可在所有操作系统上运行，初学者能很好适应。(2)Python 其自身所带了很多例如urllib3等很方便爬虫的库，以及其完整的爬虫框架 Scrapy，使用者很方便上手。 2.2 Python 网络爬虫模块 1. urllib 包。Urllib 是标准库，它是一个工具包模块，包含以下模块来处理 URL：(1)urllib.request：用于打开和读写 URL；(2)urllib.error 包含了由 urllib.request 引起的异常； (3)urllib.parse 用于解析 URL；(4)urllib.robotparser 分析基于 Python 下的爬虫综述及应用 □张誉曜陈媛媛(通讯作者) 新疆师范大学计算机科学技术学院【摘要】本文对 Python 全栈爬虫技术进行阐述，包含了爬虫概念、流程和架构，并通过详细的代码展示体现出来，紧接着通过实例展现了 Python 爬虫的简洁性，望对学习者有所帮助。【关键词】 Python 全栈爬虫爬虫概念应用 2017 年度新疆师范大学计算机科学学院数据安全重点实验室招标课题“网络空间命运共同体视域下我国智库网络影响力提升路径研究”，课题编号 : XJNUSYS102017B07。通讯作者 : 陈媛媛 ( 1977— ) ，新疆师范大学计算机学院副研究馆员 robots.txt 文件。在 Python2 中提供了 urllib 和 urllib2，其中urllib 提供的是底层的接口，urllib2 对 urllib 进行了进一步的封装。但在 Python3 中将 urllib 合并到了 urllib2 中，并只提供了标准库 urllib 包。 2. request.urlopen 方法。通过 urllib.request.urlopen 方法，发起了一个 HTTP 的 GET 请求，WEB 服务器返回了网页内容。响应的数据被封装到类文件对象中，可以通过read方法、 readlin

商厚泽

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
python爬虫文献综述_基于Python下的爬虫综述及应用

98 Internet Application 互联网 + 应用引言：如今，大数据已经进入我们的各个领域，我们的工作及应用越来越需要获取大量的数据。我们可以想象在一张蜘蛛网上沿着我们所需的方向爬取猎物(数据)的感觉。实际上爬虫就是通过人为的模拟浏览器行为，获取站点的HTML 代码、JSON 数据以及其它相关内容到本地，保存以便日后自己使用。一、爬虫技术 1、爬虫简介。爬虫，应该称为网络爬虫，也叫...
复制链接

扫一扫