python爬去百度百科词条_GitHub - BaikeSpider/baike-spider: 百度百科网络爬虫，爬取python词条相关页面的标题和简介。...

最新推荐文章于 2024-02-29 16:55:32 发布

VIP文章 weixin_39632379

最新推荐文章于 2024-02-29 16:55:32 发布

阅读量402

点赞数

文章标签： python爬去百度百科词条

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39632379/article/details/111525079

版权

baike-spider

百度百科网络爬虫，爬取python词条相关页面的标题和简介。

本文整理自慕课网《Python开发简单爬虫》，将会记录爬取百度百科“python”词条相关页面的整个过程。

抓取策略

确定目标：确定抓取哪个网站的哪些页面的哪部分数据。本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介。

分析目标：分析要抓取的url的格式，限定抓取范围。分析要抓取的数据的格式，本实例中就要分析标题和简介这两个数据所在的标签的格式。分析要抓取的页面编码的格式，在网页解析器部分，要指定网页编码，然后才能进行正确的解析。

编写代码：在网页解析器部分，要使用到分析目标得到的结果。

执行爬虫：进行数据抓取。

分析目标

1、url格式

进入百度百科python词条页面，页面中相关词条的链接比较统一，大都是/view/xxx.htm。

2、数据格式

标题位于类lemmaWgt-lemmaTitle-title下的h1子标签，简介位于类lemma-summary下。

3、编码格式

查看页面编码格式，为utf-8。

经过以上分析，得到结果如下：

代码编写

项目结构

在sublime下，新建文件夹baike-spider，作为项目根目录。

新建spider_main.py，作为爬虫总调度程序。

新建url_manger.py，作为url管理器。

新建html_downloader.py，作为html下载器。

新建html_parser.py，作为html解析器。

新建html_outputer.py，作为写出数据的工具。

最终项目结构如下图：

spider_main.py

coding:utf-8

import url_manager, html_downloader, html_parser, html_outputer

class SpiderMain(object):

def init(self):

self.urls = url_manager.UrlManager()

self.downloader = html_downloader.HtmlDownloader()

self.parser = html_parser.HtmlParser()

self.outputer = html_outputer.HtmlOutputer()

def craw(self, root

最低0.47元/天解锁文章

weixin_39632379

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python爬去百度百科词条_GitHub - BaikeSpider/baike-spider: 百度百科网络爬虫，爬取python词条相关页面的标题和简介。...

baike-spider百度百科网络爬虫，爬取python词条相关页面的标题和简介。本文整理自慕课网《Python开发简单爬虫》，将会记录爬取百度百科“python”词条相关页面的整个过程。抓取策略确定目标：确定抓取哪个网站的哪些页面的哪部分数据。本实例抓取百度百科python词条页面以及python相关词条页面的标题和简介。分析目标：分析要抓取的url的格式，限定抓取范围。分析要抓取的数据的格式...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。