来自(慕课网 Python开发简单爬虫 https://www.imooc.com/video/10675) 个人笔记
1、麻烦
登录网页、javascript加载的
2、爬虫简介
爬虫:一段自动抓取互联网信息的程序。URL到URL,从界面提取数据。
3、简单爬虫架构
(URL管理器、网页下载器urllib2(python自带库)、网页解析器BeautifulSoup)
爬虫架构:
爬虫调度端(URL管理器--》网页下载器--》网页解析器)--》价值数据
运行流程:
4、URL管理器
用于管理待抓取的URL集合和已抓取URL集合
(1)放置重复抓取、放置循环抓取
(2)过程:
(3)URL管理器实现方式
内存:python的set可以直接去除重复数据
关系数据库:永久存储
缓存数据库(高性能,大型公司常用)
5、网页下载器urllib2(python自带库)
将互联网上URL对应的网页下载的本地的工具
类似于浏览器的形式。将html下载下来。
(1)python下载器
urllib2,python官方基础模块,支持需要登录,需要代理、需要用户数据数据,
requests:第三方工具,更强大。
(2)urllib2 三种下载网页方法
6、网页解析器BeautifulSoup
(1)种类:正则表达式、html.parser模块、Beautiful Soup(第三方插件)、lxml(第三方插件)
(2)结构化解析-DOM,(Document Object Model)树,解析
(3)安装BeautifulSoup
官网:https://www.crummy.com/software/BeautifulSoup/bs4/doc/
(4)BeautifulSoup 语法
7、示例
爬虫步骤