Python 爬虫
最近在学 Python P y t h o n ,找了一个入门级的 Crawler C r a w l e r 代码进行学习,双管齐下。(#^.^#)
仅供个人学习 Python P y t h o n 和爬虫入门使用,也欢迎大佬们指点。
目标分析
目标:
百度百科 Python 词条相关词条网页-标题和简介
入口页:
URL: http://baike.baidu.com/view/21087.htm
URL 格式:
词条页面 URL: http://baike.baidu.com/item/*
数据格式:
标题: <dd class="lemmaWgt-lemmaTitle-title"><h1> *** </h1></dd>
简介: <div class="lemma-summary"> *** </div>
页面编码: UTF−8 U T F − 8
源码
Python 环境及第三方模块依赖
Python: Python 2.7.10
第三方模块: BeautifulSoup4
spider_main.py
PythonCrawler 主程序,涵盖主要爬取逻辑。
url_manager
URL 管理器,用来管理 URL,将 URL 分为新旧两部分,新的是未爬取过的 URL,旧的是已经爬取过的 URL。
html_downloader
HTML 下载器,用来下载想要爬取的网址 HTML 源码并且留给 HTML 解析器解析。
html_parser
HTML 解析器,用来解析下载好的页面 HTML 源码,并从中检索新的 URL 留给 URL 管理器管理、获取想要的数据信息留给 HTML 输出器输出。
html_outputer
HTML 输出器,用来将 HTML 解析器提取出来的信息输出成 HTML 格式。