爬虫—流程总结
请求库:
一、requests
安装第三方库: requests;
导入第三方库:import requests
1.请求网络数据: requests.get(请求地址)
response = requests.get('https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js')
2.设置解码方式(乱码的是需要设置 - 一定要在获取请求结果之前设置)
response.encoding = 'utf-8'
# 编码方式和解码方式必须相同
3.获取请求结果
1)获取请求结果对应的文本数据 - 爬网页------>> response.text
2)获取二进制格式的请求结果 - 下载图片、视频、音频------>> response.content
3)获取请求结果json转换的结果 - json接口------>> response.json()
二、selenium
第三方库: selenium
导入使用: from selenium.webdriver import Chrome (谷歌浏览器)
获取标签对象: from selenium.webdriver.common.by import By
1.创建浏览器对象
b = Chrome()
2.打开网页(需要爬那个页面的数据,就打开那个页面对应的网页地址)
b.get('https://movie.douban.com/top250?start=0&filter=')
3.获取网页源代码(注意:不管以什么样的方式更新了界面内容,page_source的内容也会更新)
print(b.page_source) # 获取豆瓣电影top250的网页源代码
解析
解析库:bs4,lxml
bs4:
bs4(beautifulsoup4),它基于css选择器的网页解析器(css选择器: day2-csv和Bs4)
------>安装的时候装beautifulsoup4,使用的时候用bs4
安装库: beautifulsoup4
导入: from bs4 import BeautifulSoup
1.根据网页源代码创建soup对象: BeautifulSoup(网页源代码, ‘lxml’)
f = open('files/data.html', encoding='utf-8') # 打开files文件夹中的html文件data.html
soup = BeautifulSoup(f<