理解爬虫原理

最新推荐文章于 2023-06-15 19:52:48 发布

weixin_33810006

最新推荐文章于 2023-06-15 19:52:48 发布

阅读量147

点赞数

文章标签：爬虫 python json

原文链接：http://www.cnblogs.com/lxcbk/p/10605826.html

版权

本次作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851

1. 简单说明爬虫原理

网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。也就是请求网站并提取数据的自动化程序。

2. 理解爬虫开发过程

1).简要说明浏览器工作原理

模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中。主要由以下步骤：

发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执行JS 和CSS 代码

获取响应内容

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

解析内容

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

保存数据

数据库（MySQL，Mongdb、Redis）

文件

2).使用 requests 库抓取网站数据

代码如下：

运行结果：

3).了解网页

写一个HTML界面代码如下：

运行界面如下：

4).使用 Beautiful Soup 解析网页

通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

代码如下：

运行结果：

3.提取一篇校园新闻的标题、发布时间、发布单位

代码如下：

运行结果：

转载于:https://www.cnblogs.com/lxcbk/p/10605826.html

weixin_33810006

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
理解爬虫原理

本次作业的要求来自于：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/28511. 简单说明爬虫原理网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。也就是请求网站并提取数据的自动化程序。2. 理解爬虫开发过程1).简要说明浏览器工作原理模...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。