爬虫的基本步骤与基本道德原则

一、爬虫的基本步骤

1.获取网页内容(http请求,python的Requests库):

通过代码给一个网站服务器发送请求,它会返回网页上的内容

通过浏览器访问网页时,也是同样的方式,给网站服务器发送请求,并返回网页上的内容,只不过浏览器会加以渲染成为优美的画面

由于代码获取网页的内容不加渲染,因此会显得更加原始,并且得到的是整个网页内容

2.解析网页内容(学习HTML网页结构,由于用python请求的内容大都是是html格式,用Beautiful Soup库解析)

即提取想要的信息

3.存储或分析数据

存入数据库,或者做成可视化图表等,具体取决于分析的需求

二、基本道德与法律原则

1.不要爬取公民隐私数据

2.不要爬取受著作权保护的内容

3.不要爬取国家事务、国防建设、尖端科学技术领域的计算机系统

4.爬虫请求数量和频率不能过高,否则可能无异于DDoS攻击(DDos攻击就是通过给服务器发送海量高频的请求让网站资源被耗尽,无法服务其他正常用户)

5.网站有明显的反爬机制,比如账号登陆,验证码机制等就不要去爬了

6.可以通过查看网站的robots.txt文件了解可爬取的网页路径范围这个文件会指明哪些网页允许被爬取,哪些不允许被爬取(君子协议)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值