网络爬虫(基于python的网络爬虫批量爬取图片)

1.模拟用户向指定网站发送请求

        需要下载requests模块来模拟用户向网站发送请求,在终端输入如下指令:

pip install requests

        1> 了解网页结构

                学习网页基础(一般由三部分构成,HTML(网页基本骨架),CSS(页面样式),JS(与用户进行动态交互))

        2 > 了解爬虫

                网络爬虫(又被称为网页蜘蛛),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据

        3>了解反爬

                搜索引擎可以通过爬虫抓取网页信息,进行数据分析等,但有些网站中的网页信息并不希望被爬取这里就会涉及到反爬虫技术

                反爬虫技术如下所示:

                1.通过user-Agent来控制访问(user-agent能够使服务器识别出用户的操作系统及版本、cpu类型、浏览器类型和版本,一些网站会设置user-agent名单范围,在范围内的可以正常访问),2.通过IP来限制,3.设置请求间隔,4.自动化测试工具,5.参数通过加密,6. 通过robots.txt来限制爬虫等。

2.解析网页数据

        requests 库已经可以抓到网页源码,接下来要从源码中找到并提取数据。Beautiful Soup 是 python 的一个库,其最主要的功能是从网页中抓取数据。Beautiful Soup 目前已经被移植到 bs4 库中,也就是说在导入 Beautiful Soup 时需要先安装 bs4 库。

安装好 bs4 库以后,还需安装 lxml 库。如果我们不安装 lxml 库,就会使用 Python 默认的解析器。尽管 Beautiful Soup 既支持 Python 标准库中的 HTML 解析器又支持一些第三方解析器,但是 lxml 库具有功能更加强大、速度更快的特点,因此个人推荐安装 lxml 库。

pip install bs4
pip install lxml
  • 2
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值