PythonCrawler-入门级爬虫学习

最新推荐文章于 2024-08-09 07:23:41 发布

f_zyj

最新推荐文章于 2024-08-09 07:23:41 发布

阅读量3.9k

点赞数

分类专栏： Python GitHub 文章标签： Python Crawler

本文链接：https://blog.csdn.net/f_zyj/article/details/80454972

版权

Python 同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

GitHub

2 篇文章 0 订阅

订阅专栏

Python 爬虫

最近在学 $Python$ ，找了一个入门级的 $Crawler$ 代码进行学习，双管齐下。(#^.^#)

仅供个人学习 $Python$ 和爬虫入门使用，也欢迎大佬们指点。

目标分析

目标：

百度百科 Python 词条相关词条网页-标题和简介

入口页：

URL：    http://baike.baidu.com/view/21087.htm

URL 格式：

词条页面 URL：    http://baike.baidu.com/item/*

数据格式：

标题：    <dd class="lemmaWgt-lemmaTitle-title"><h1> *** </h1></dd>
简介：    <div class="lemma-summary"> *** </div>

页面编码： $UTF-8$

源码

>>> GitHub 库 <<<

Python 环境及第三方模块依赖

Python：    Python 2.7.10
第三方模块： BeautifulSoup4

spider_main.py

PythonCrawler 主程序，涵盖主要爬取逻辑。

url_manager

URL 管理器，用来管理 URL，将 URL 分为新旧两部分，新的是未爬取过的 URL，旧的是已经爬取过的 URL。

html_downloader

HTML 下载器，用来下载想要爬取的网址 HTML 源码并且留给 HTML 解析器解析。

html_parser

HTML 解析器，用来解析下载好的页面 HTML 源码，并从中检索新的 URL 留给 URL 管理器管理、获取想要的数据信息留给 HTML 输出器输出。

html_outputer

HTML 输出器，用来将 HTML 解析器提取出来的信息输出成 HTML 格式。