1.模拟用户向指定网站发送请求
需要下载requests模块来模拟用户向网站发送请求,在终端输入如下指令:
pip install requests
1> 了解网页结构
学习网页基础(一般由三部分构成,HTML(网页基本骨架),CSS(页面样式),JS(与用户进行动态交互))
2 > 了解爬虫
网络爬虫(又被称为网页蜘蛛),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据
3>了解反爬
搜索引擎可以通过爬虫抓取网页信息,进行数据分析等,但有些网站中的网页信息并不希望被爬取这里就会涉及到反爬虫技术
反爬虫技术如下所示:
1.通过user-Agent来控制访问(user-agent能够使服务器识别出用户的操作系统及版本、cpu类型、浏览器类型和版本,一些网站会设置user-agent名单范围,在范围内的可以正常访问),2.通过IP来限制,3.设置请求间隔,4.自动化测试工具,5.参数通过加密,6. 通过robots.txt来限制爬虫等。
2.解析网页数据
requests 库已经可以抓到网页源码,接下来要从源码中找到并提取数据。Beautiful Soup 是 python 的一个库,其最主要的功能是从网页中抓取数据。Beautiful Soup 目前已经被移植到 bs4 库中,也就是说在导入 Beautiful Soup 时需要先安装 bs4 库。
安装好 bs4 库以后,还需安装 lxml 库。如果我们不安装 lxml 库,就会使用 Python 默认的解析器。尽管 Beautiful Soup 既支持