第7章实战演练：爬取百度百科1000个页

最新推荐文章于 2024-10-18 00:00:00 发布

weixin_33758863

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量90

点赞数

文章标签： python 爬虫

原文链接：http://www.cnblogs.com/Worssmagee1002/p/7365821.html

版权

实例爬虫
第一节爬虫步骤
确定目标---分析目标即抓取策略(URL格式、数据格式、网页编码)---编写代码---执行爬虫
目标：百度百科python词条相关词条网页---标题和简介
入口页：http://baike.baidu.com/item/Python
URL格式：
   词条页面URL：/view/125370.html
数据格式：
   标题
   简介
页面编码：UTF-8
第二节调度程序

具体代码：https://github.com/saisai1002/spider_demo

转载于:https://www.cnblogs.com/Worssmagee1002/p/7365821.html