Python 爬虫 入门 轻量级

来自(慕课网 Python开发简单爬虫 https://www.imooc.com/video/10675) 个人笔记

1、麻烦

登录网页、javascript加载的


2、爬虫简介

爬虫:一段自动抓取互联网信息的程序。URL到URL,从界面提取数据。


3、简单爬虫架构

(URL管理器、网页下载器urllib2(python自带库)、网页解析器BeautifulSoup)

爬虫架构:

爬虫调度端(URL管理器--》网页下载器--》网页解析器)--》价值数据

运行流程:





4、URL管理器

用于管理待抓取的URL集合和已抓取URL集合

(1)放置重复抓取、放置循环抓取

(2)过程: 


(3)URL管理器实现方式

内存:python的set可以直接去除重复数据

关系数据库:永久存储

缓存数据库(高性能,大型公司常用)



5、网页下载器urllib2(python自带库)

将互联网上URL对应的网页下载的本地的工具

类似于浏览器的形式。将html下载下来。

(1)python下载器

urllib2,python官方基础模块,支持需要登录,需要代理、需要用户数据数据,

requests:第三方工具,更强大。

(2)urllib2 三种下载网页方法






6、网页解析器BeautifulSoup

(1)种类:正则表达式、html.parser模块、Beautiful Soup(第三方插件)、lxml(第三方插件)

(2)结构化解析-DOM,(Document Object Model)树,解析



(3)安装BeautifulSoup

官网:https://www.crummy.com/software/BeautifulSoup/bs4/doc/


(4)BeautifulSoup 语法









7、示例

爬虫步骤







评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值