python爬虫爬取网页内容

最新推荐文章于 2024-06-19 17:27:45 发布

m0_61737220

最新推荐文章于 2024-06-19 17:27:45 发布

阅读量4.1k

点赞数 3

文章标签： python 爬虫 1024程序员节

本文链接：https://blog.csdn.net/m0_61737220/article/details/120817166

版权

1.导入requests、BeautifulSoup库。

一、

import requests

r=requests.get("http://www.baidu.com")#使用get函数打开百度

print(r) #返回状态

r.encoding='utf-8'#中文字符可以输出

print(r.text)

二、
import requests
from bs4 import BeautifulSoup
r=requests.get("http://www.baidu.com")
print(r) #返回状态
r.encoding="utf-8"
soup=BeautifulSoup(r.text) #soup是beautifulsoup的一个对象
type(soup)

2.将需要爬取网页的网址复制粘贴。

3.从网络上获取网页内容（爬取过程中加上头信息），

假如有反爬虫机制，则需要用header进行伪装（如何寻找header：1.网页、右键、查看源代码

2.网页、右键、network、名称、标头）

4.分析网页结构，从中抓取需要内容：1.定义函数

2.找到所有tr标签

3.在每个tr标签中找td标签

4.获得td标签的信息

对内容进行筛选，去除无关内容。

5.利用数据结构展示或进一步处理数据，使数据展示更清晰明了。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0_61737220

关注关注

3
点赞
踩
29

收藏

觉得还不错? 一键收藏
1
评论
python爬虫爬取网页内容

1.导入requests、BeautifulSoup库。2.将需要爬取网页的网址复制粘贴。3.从网络上获取网页内容（爬取过程中加上头信息），假如有反爬虫机制，则需要用header进行伪装（如何寻找header：1.网页、右键、查看源代码 2.网页、右键、network、名称、标头）4.分析网页结构，从中抓取需要内容：1.定义函数 ...
复制链接

扫一扫