Python是当下主流语言,身为程序员,学习之路任重道远。爬虫是Python语言的主要开发功能之一。
我用的开发工具是vscode,Python版本是3.6.
首先导包:import requests
requests是Python连接url地址,获取网页内容,可以设置headers,设置headers可预防网站反爬虫。
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0",
"Request": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Referer": "返回内容"
}
res=requests.get(url,headers=headers)
res.encoding="utf-8" #返回中文异常时,指定编码
将返回结果转码处理,提取指定内容。
text=res.text
from bs4 import BeautifulSoup
sel=BeautifulSoup(text,'lxml')
img=sel.find('center').find('img').get("src") #方案一 获取第一张图
img=sel.select("center img")[0].get("src") #方案二 获取第一张图
导入bs4,使用放find、select、findAll指定标签,通过get获取属性值。这些方法支持id和class。