python爬虫记录_python爬虫学习过程记录

本文介绍了Python爬虫的基础知识,包括爬虫的定义、简单爬虫的架构流程。讲解了URL管理器、网页下载器(如urllib2)和网页解析器(如BeautifulSoup)的角色。通过实例展示了如何爬取百度百科Python词条的相关信息,包括标题和简介。提供了完整代码的获取方式。
摘要由CSDN通过智能技术生成

项目为爬取Python词条的信息。

项目代码在我的码云仓库。

https://gitee.com/libo-sober/learn-python/tree/master/baike_spider

1.开发轻量级爬虫

1.1爬虫简介

爬虫:一段自动抓取互联网信息的程序。

自动访问互联网并且提取数据。

价值:互联网数据为我所用。

1.2简单爬虫架构

运行流程:

1.3URL管理器

URL管理器:管理待抓取URL集合和已抓取URL集合。防止重复抓取和循环抓取。

实现方式:

一般大公司都存在缓存数据库中。

1.4网页下载器

网页下载器:将互联网上URL对应的网页下载到本地的工具。

Python有哪几种网页下载器?

1.5 urllib2

urllib2下载网页方法1:最简洁方法

python3中把urllib2改为了urllib.request

对应到代码:

urllib2下载网页方法2:添加data、http header

urllib2下载网页方法3:添加特殊情景的处理器。

有些网页需要登录才能处理,需要添加Cookie的处理;

有些网页需要代理才能访问,使用ProxyHandler;

有些网页使用Https加密访问,使用HTTPSHandler;

有些网页url是相互自动跳转的关系,使用HTTPRedirectHandler。

对应到代码:

1.6网页解析器

网页解析器:从网页中提取出有价值的数据的工具。

python有哪几种网页解析器?

结构化解析-DOM(Document Object Model)树

1.7 Beautiful Soup

python第三方库,用于从HTML或XML中提取数据

安装并测试beautifulsoup4

安装:pip install beautifulsoup4

测试:import bs4

语法:

例如:

创建BeautifulSoup对象

搜索节点(find_all, find)

访问节点信息

1.8 实例爬虫

目标:百度百科python词条相关词条网页-标题和简介。

入口页:https://baike.baidu.com/item/Python/407313

词条页面URL:/item/opencv 这不是一个完整的URL,需要补全。

数据格式:

标题:

《dd class=“lemmaWgt-lemmaTitle-title”>

Python

简介:

《div class=’‘para’’>

由于网站在不断升级,所以爬取代码要跟随目标网站更改需求。

源代码太长就不贴了,大家可以去我的资源里边下载。我设置了0积分币,方便大家下载。

免费获取项目代码传送门

本文分享 CSDN - 想进大厂的小白。

如有侵权,请联系 support@oschina.cn 删除。

本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值