理解爬虫原理

本次作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2851

1. 简单说明爬虫原理

网络爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。也就是请求网站并提取数据的自动化程序。

2. 理解爬虫开发过程

1).简要说明浏览器工作原理

模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中。主要由以下步骤:

发起请求

使用http库向目标站点发起请求,即发送一个Request

Request包含:请求头、请求体等 

Request模块缺陷:不能执行JS 和CSS 代码

获取响应内容

如果服务器能正常响应,则会得到一个Response

Response包含:html,json,图片,视频等

解析内容

解析html数据:正则表达式(RE模块),第三方解析库如Beautifulsoup,pyquery等

解析json数据:json模块

解析二进制数据:以wb的方式写入文件

保存数据

数据库(MySQL,Mongdb、Redis)

文件

 2).使用 requests 库抓取网站数据

代码如下:

运行结果:

3).了解网页

写一个HTML界面代码如下:

运行界面如下:

4).使用 Beautiful Soup 解析网页

通过BeautifulSoup(html_sample,'html.parser')把上述html文件解析成DOM Tree

代码如下:

运行结果:

3.提取一篇校园新闻的标题、发布时间、发布单位

代码如下:

 

运行结果:

 

转载于:https://www.cnblogs.com/lxcbk/p/10605826.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值