Python开发简单爬虫（二）---爬取百度百科页面数据

最新推荐文章于 2022-12-08 16:58:33 发布

weixin_30558305

最新推荐文章于 2022-12-08 16:58:33 发布

阅读量343

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/Lovebugs/p/7126886.html

版权

一、开发爬虫的步骤

1.确定目标抓取策略：

打开目标页面，通过右键审查元素确定网页的url格式、数据格式、和网页编码形式。

①先看url的格式, F12观察一下链接的形式;
② 再看目标文本信息的标签格式, 比如文本数据为div class="xxx",
③ 容易看到编码为utf-8

2.分析目标
目标: 百度百科python词条
入口页: http://baike.baidu.com/item/Python
词条页面url格式:/item/****
数据格式:
标题: <dd class="lemmaWgt-lemmaTitle-title"><h1>****</h1></dd>

简介: <div class = "lemma-summary">****</div>
页面编码: utf-8

3.实例代码

爬取百度百科Python词条以及相关的1000个页面数据

转载于:https://www.cnblogs.com/Lovebugs/p/7126886.html

weixin_30558305

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python开发简单爬虫（二）---爬取百度百科页面数据

一、开发爬虫的步骤1.确定目标抓取策略：打开目标页面，通过右键审查元素确定网页的url格式、数据格式、和网页编码形式。①先看url的格式, F12观察一下链接的形式;② 再看目标文本信息的标签格式, 比如文本数据为div class="xxx", ③ 容易看到编码为utf-82.分析目标目标: 百度百科python词条入口页:http://baike.baidu....
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。