python爬虫实战

今天来写个爬虫教程

大神们勿看

======================正文===============

第一步:

        导库

import requests
import bs4
import time

第二步:

        爬虫部分

爬虫要有一个请求头(如下)

​
head = {
    "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"
}# 设置请求头,模拟浏览器

​

请求头有了,接下来要一个链接

这里用百度游戏指数排行

url = "https://static0.xesimg.com/pythonweb/dogs.html"

接下来是请求网站的环节

也就是requestts环节

res = requests.get(url, headers=head)
res.encoding = res.apparent_encoding  # 设置编码格式

用这个检验

print(res)  # 查看状态码
print(res.text)  # 查看网页HTML代码

如果状态码是200表示访问成功

接下来用beautifullsoup来解析网站

soup = bs4.BeautifulSoup(res.text, "lxml")  # 解析网页
tags = soup.find_all("div", class_="tit")

展示解析数据

# 展示结果
for t in tags:
    print(t.text)

完整代码

import requests
import bs4
import time
head = {
    "User-Agent": "Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11"
}# 设置请求头,模拟浏览器
#TODO 修改下方需要爬取的网址
url = "https://static0.xesimg.com/pythonweb/dogs.html"
# 请求网页
res = requests.get(url, headers=head)
res.encoding = res.apparent_encoding  # 设置编码格式
# print(res)  # 查看状态码
# print(res.text)  # 查看网页HTML代码
soup = bs4.BeautifulSoup(res.text, "lxml")  # 解析网页
# 选取数据
#TODO 修改下方爬取条件中的标签名、属性
tags = soup.find_all("div", class_="tit")

# 展示结果
for t in tags:
    print(t.text)
    
    #TODO 取消下面代码的注释,可以保存内容到txt中
    # with open("内容.txt", "a", encoding="UTF-8") as file:
    # #TODO 修改要写入的内容
    #     file.write(t.text + "\n")

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值