今天来写个爬虫教程
大神们勿看
======================正文===============
第一步:
导库
import requests
import bs4
import time
第二步:
爬虫部分
爬虫要有一个请求头(如下)
head = {
"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"
}# 设置请求头,模拟浏览器
请求头有了,接下来要一个链接
这里用百度游戏指数排行
url = "https://static0.xesimg.com/pythonweb/dogs.html"
接下来是请求网站的环节
也就是requestts环节
res = requests.get(url, headers=head)
res.encoding = res.apparent_encoding # 设置编码格式
用这个检验
print(res) # 查看状态码 print(res.text) # 查看网页HTML代码
如果状态码是200表示访问成功
接下来用beautifullsoup来解析网站
soup = bs4.BeautifulSoup(res.text, "lxml") # 解析网页
tags = soup.find_all("div", class_="tit")
展示解析数据
# 展示结果
for t in tags:
print(t.text)
完整代码
import requests
import bs4
import time
head = {
"User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"
}# 设置请求头,模拟浏览器
#TODO 修改下方需要爬取的网址
url = "https://static0.xesimg.com/pythonweb/dogs.html"
# 请求网页
res = requests.get(url, headers=head)
res.encoding = res.apparent_encoding # 设置编码格式
# print(res) # 查看状态码
# print(res.text) # 查看网页HTML代码
soup = bs4.BeautifulSoup(res.text, "lxml") # 解析网页
# 选取数据
#TODO 修改下方爬取条件中的标签名、属性
tags = soup.find_all("div", class_="tit")
# 展示结果
for t in tags:
print(t.text)
#TODO 取消下面代码的注释,可以保存内容到txt中
# with open("内容.txt", "a", encoding="UTF-8") as file:
# #TODO 修改要写入的内容
# file.write(t.text + "\n")