Python开发简单爬虫（根据慕课网视频课程整理）

最新推荐文章于 2022-10-26 20:04:52 发布

此号作废了了啊

最新推荐文章于 2022-10-26 20:04:52 发布

阅读量876

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/iewuiujiddj/article/details/78393989

版权

python 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

今天来简单介绍一下如何利用python开发简单的爬虫应用

代码已经上传到github

第1章课程介绍
本章对课程要学习的内容进行概览，明确告诉大家将从课程中学到开发一个爬虫所需的相关技术。
1-1 Python开发简单爬虫课程介绍
第2章爬虫简介以及爬虫的技术价值
本章介绍了爬虫技术的含义，以及爬虫这门技术存在的价值和意义
2-1 爬虫是什么
2-2 爬虫技术的价值
第3章简单爬虫架构
本章介绍了精心提炼的一个简洁爬虫技术架构，通过动态图介绍了技术架构实现爬虫任务的流程，使大家对爬虫的整体组成和运行流程有整体的把握。
3-1 Python简单爬虫架构
3-2 Python简单爬虫架构的动态运行流程
第4章 URL管理器和实现方法
本章介绍了简单爬虫架构的URL管理器模块，用于管理待爬取的URL集合和已爬取的URL集合，也介绍了实现URL管理器的几种方法
4-1 Python爬虫URL管理
4-2 Python爬虫URL管理器的实现方式
第5章网页下载器和urllib2模块
本章介绍了简单爬虫架构的网页下载器模块，将网页下载下来然后才能进行后续的数据提取，本章然后介绍了Python自带的urllib2模块的各种使用语法用于网页的下载
5-1 Python爬虫网页下载器简介
5-2 Python爬虫urlib2下载器网页的三种方法
5-3 Python爬虫urlib2实例代码演示
第6章网页解析器和BeautifulSoup第三方模块
本章介绍了简单爬虫架构的网页解析器模块，解析器用于从网页中提取价值数据和新的待爬取URL，本章然后介绍了BeautifulSoup这个强大的第三方模块用于数据的解析和提取
6-1 Python爬虫网页解析器简介
6-2 BeautifulSoup模块介绍和安装
6-3 BeautifulSoup的语法
6-4 BeautifulSoup实例测试
第7章实战演练：爬取百度百科1000个页面的数据
本章是课程的核心部分，通过一套精心设计并编写的爬虫代码，实现了课程前面讲述的简单爬虫架构中各个组成部分，爬虫代码最终完成了百度百科1000个页面的数据爬取并进行了数据展示，本代码经过配置修改后，可以用来爬取任何网站数据
7-1 Python爬虫实例-分析目标
7-2 调度程序
7-3 URL管理器
7-4 HTML下载器html_downloader
7-5 HTML解析器html_parser
7-6 HTML输出器
7-7 开始运行爬虫和爬取结果展示
第8章课程总结
本章回顾了课程讲过的知识，对爬虫的技术架构有一个整体的回顾和把握，另外也对爬虫技术的深入发展将会遇到的困难进行了简单展望