Python 爬虫入门轻量级

最新推荐文章于 2024-11-04 21:51:40 发布

twy13

最新推荐文章于 2024-11-04 21:51:40 发布

阅读量262

点赞数

分类专栏： Python 爬虫文章标签： python 爬虫

Python 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

来自（慕课网 Python开发简单爬虫 https://www.imooc.com/video/10675）个人笔记

1、麻烦

登录网页、javascript加载的

2、爬虫简介

爬虫：一段自动抓取互联网信息的程序。URL到URL，从界面提取数据。

3、简单爬虫架构

（URL管理器、网页下载器urllib2（python自带库）、网页解析器BeautifulSoup）

爬虫架构：

爬虫调度端（URL管理器--》网页下载器--》网页解析器）--》价值数据

运行流程：

4、URL管理器

用于管理待抓取的URL集合和已抓取URL集合

（1）放置重复抓取、放置循环抓取

（2）过程：

（3）URL管理器实现方式

内存：python的set可以直接去除重复数据

关系数据库：永久存储

缓存数据库（高性能，大型公司常用）

5、网页下载器urllib2（python自带库）

将互联网上URL对应的网页下载的本地的工具

类似于浏览器的形式。将html下载下来。

（1）python下载器

urllib2，python官方基础模块，支持需要登录，需要代理、需要用户数据数据，

requests：第三方工具，更强大。

（2）urllib2 三种下载网页方法

6、网页解析器BeautifulSoup

（1）种类：正则表达式、html.parser模块、Beautiful Soup（第三方插件）、lxml（第三方插件）

（2）结构化解析-DOM，（Document Object Model）树，解析

（3）安装BeautifulSoup

官网：https://www.crummy.com/software/BeautifulSoup/bs4/doc/

（4）BeautifulSoup 语法

7、示例

爬虫步骤

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。