什么是爬虫?
网络爬虫(web crawler)也叫网页蜘蛛,网络机器人,是一种用来自动浏览万维网的程序或者脚本。爬虫可以验证超链接和HTML代码,用于网络抓取(Web scraping)。网络搜索引擎等站点通过爬虫软件更新自身的网站内容(Web content)或其对其他网站的索引。
爬虫基本流程
1.发送请求:使用http库向目标站点发起请求,即发送一个request(包含请求头和请求体等)。
2.获取响应内容:如果服务器正常响应,则得到一个Response(包含html,json,图片,视频)。
3.解析内容:解析html数据(正则表达式RE模块),第三方解析库(Beautifulsoup),解析json数据(json模块)。
4.保存数据
代码:import requests
from bs4 import BeautifulSoup
r=requests.get("http://www.baidu.com") #使用get打开链接
r.status_code #返回状态,200代表成功
r.encoding='utf-8' #中文为乱码,所以改变编码方式
r.text
soup=BeautifulSoup(r.text)
type(soup) #输出字符类型
soup.head soup.title soup.body soup.p
import re #正则表达式库
re.findall #匹配字符串
r = requests.get(url).text #获取内容并存储数据为text类型