python爬虫记录_python爬虫学习过程记录

最新推荐文章于 2024-06-30 11:55:03 发布

weixin_39959192

最新推荐文章于 2024-06-30 11:55:03 发布

阅读量57

点赞数

文章标签： python爬虫记录

本文介绍了Python爬虫的基础知识，包括爬虫的定义、简单爬虫的架构流程。讲解了URL管理器、网页下载器（如urllib2）和网页解析器（如BeautifulSoup）的角色。通过实例展示了如何爬取百度百科Python词条的相关信息，包括标题和简介。提供了完整代码的获取方式。

摘要由CSDN通过智能技术生成

项目为爬取Python词条的信息。

项目代码在我的码云仓库。

https://gitee.com/libo-sober/learn-python/tree/master/baike_spider

1.开发轻量级爬虫

1.1爬虫简介

爬虫：一段自动抓取互联网信息的程序。

自动访问互联网并且提取数据。

价值：互联网数据为我所用。

1.2简单爬虫架构

运行流程：

1.3URL管理器

URL管理器：管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。

实现方式：

一般大公司都存在缓存数据库中。

1.4网页下载器

网页下载器：将互联网上URL对应的网页下载到本地的工具。

Python有哪几种网页下载器？

1.5 urllib2

urllib2下载网页方法1：最简洁方法

python3中把urllib2改为了urllib.request

对应到代码：

urllib2下载网页方法2：添加data、http header

urllib2下载网页方法3：添加特殊情景的处理器。

有些网页需要登录才能处理，需要添加Cookie的处理；

有些网页需要代理才能访问，使用ProxyHandler；

有些网页使用Https加密访问，使用HTTPSHandler；

有些网页url是相互自动跳转的关系，使用HTTPRedirectHandler。

对应到代码：

1.6网页解析器

网页解析器：从网页中提取出有价值的数据的工具。

python有哪几种网页解析器？

结构化解析-DOM(Document Object Model)树

1.7 Beautiful Soup

python第三方库，用于从HTML或XML中提取数据

安装并测试beautifulsoup4

安装：pip install beautifulsoup4

测试：import bs4

语法：

例如：

创建BeautifulSoup对象

搜索节点(find_all, find)

访问节点信息

1.8 实例爬虫

目标：百度百科python词条相关词条网页-标题和简介。

入口页：https://baike.baidu.com/item/Python/407313

词条页面URL:/item/opencv 这不是一个完整的URL，需要补全。

数据格式：

标题：

《dd class=“lemmaWgt-lemmaTitle-title”>

Python

简介：

《div class=’‘para’’>

由于网站在不断升级，所以爬取代码要跟随目标网站更改需求。

源代码太长就不贴了，大家可以去我的资源里边下载。我设置了0积分币，方便大家下载。

免费获取项目代码传送门

本文分享 CSDN - 想进大厂的小白。

如有侵权，请联系 support@oschina.cn 删除。

本文参与“OSC源创计划”，欢迎正在阅读的你也加入，一起分享。

weixin_39959192

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。