python爬虫实战

蒲鑫乐

已于 2023-01-26 22:24:52 修改

阅读量294

点赞数

分类专栏：爬虫文章标签：爬虫 python 开发语言

于 2023-01-21 20:07:22 首次发布

本文链接：https://blog.csdn.net/Psl20100920/article/details/128747285

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

今天来写个爬虫教程

大神们勿看

======================正文===============

第一步：

导库

import requests
import bs4
import time

第二步：

爬虫部分

爬虫要有一个请求头（如下）


head = {
    "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"
}# 设置请求头，模拟浏览器

请求头有了，接下来要一个链接

这里用百度游戏指数排行

url = "https://static0.xesimg.com/pythonweb/dogs.html"

接下来是请求网站的环节

也就是requestts环节

res = requests.get(url, headers=head)
res.encoding = res.apparent_encoding  # 设置编码格式

用这个检验

print(res)  # 查看状态码
print(res.text)  # 查看网页HTML代码

如果状态码是200表示访问成功

接下来用beautifullsoup来解析网站

soup = bs4.BeautifulSoup(res.text, "lxml")  # 解析网页
tags = soup.find_all("div", class_="tit")

展示解析数据

# 展示结果
for t in tags:
    print(t.text)

完整代码

import requests
import bs4
import time
head = {
    "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"
}# 设置请求头，模拟浏览器
#TODO 修改下方需要爬取的网址
url = "https://static0.xesimg.com/pythonweb/dogs.html"
# 请求网页
res = requests.get(url, headers=head)
res.encoding = res.apparent_encoding  # 设置编码格式
# print(res)  # 查看状态码
# print(res.text)  # 查看网页HTML代码
soup = bs4.BeautifulSoup(res.text, "lxml")  # 解析网页
# 选取数据
#TODO 修改下方爬取条件中的标签名、属性
tags = soup.find_all("div", class_="tit")

# 展示结果
for t in tags:
    print(t.text)
    
    #TODO 取消下面代码的注释，可以保存内容到txt中
    # with open("内容.txt", "a", encoding="UTF-8") as file:
    # #TODO 修改要写入的内容
    #     file.write(t.text + "\n")