网络爬虫又名“网络蜘蛛”,是通过网页的链接地址来寻找网页,从网站某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到按照某种策略把互联网上所有的网页都抓取完为止的技术。
图片来源于网络
下面是使用Python实现网络爬虫的一些基础知识。
一、URL
URL –URL的格式由三部分组成:
第一部分是协议(或称为服务方式)。
第二部分是存有该资源的主机IP地址(有时也包括端口号)。
第三部分是主机资源的具体地址,如目录和文件名等。
二、获取资源API
1、urllib.request.urlopen()
2、from urllib import request
url = 'https://docs.python.org'
response = request.urlopen(url)
html = response.read() # bytes类型
html = html.decode('utf-8') # decode()解码,转换成str类型
3、urllib.request.Request
使用request()来包装请求,再通过urlopen()获取页面。
headers = {
"User-Agent": 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)