第一章 爬取网页源代码
一、导入模块
使用pip命令模块在电脑终端,下载基础爬取所用模块:requests
import requests
二、放置网址
单引号中放置网址
url = ''
三、设置请求头
headers = {
'Accept': '*/* #辨识内容为全部接取
'Accept-Language': 'en-US,en;q=0.5', #语言标准
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36' #用户代理
}
三、设置变量来接收
response = requests.get(url=url,headers=headers)
#设置response变量来接收,用requests模块get到url,headers并接收
四、“打印”出来展示结果
打印设置的response变量,并设置格式为text文本模式 print(response.text) #打印并命令格式
代码整合为以下:
import requests url = '网址放在这欧' headers = { 'Accept': '*/*', 'Accept-Language': 'en-US,en;q=0.5', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36' } response = requests.get(url=url,headers=headers) print(response.text)
狗头保命