简单Python爬虫实现

m0_74890677

已于 2024-07-11 10:26:09 修改

阅读量702

点赞数 3

文章标签： python 爬虫开发语言

于 2024-07-11 10:25:33 首次发布

本文链接：https://blog.csdn.net/m0_74890677/article/details/140343498

版权

首先

import requests
from  bs4 import BeautifulSoup

resquests库是用来获取网页全部内容的

用法

header={

"User-Agent":"自己的浏览器访问网页的客户端信息（打开网页鼠标右键点击检查，选择里面的网络那一栏，再刷新网页，点击新出现的信息，就可以看到User-Agent的值）"

}

res=requests.get('网址',headers=header)

得到网页对应服务器返回的信息

为headers赋值是为了将爬虫程序伪装成浏览器（有些网页不回应爬虫程序）

headers的属性不写也可以

查看是否访问成功

print(res.status_code)

BeautifulSoup库是为了处理服务器返回的信息

soup=BeautifulSoup(res.text,"html.parser")

一些常用的处理数据的方法

soup.findAll("HTML标签名",attres={"属性名":"属性值"})

用于筛选出需要的数据

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

关注关注