python的BeautifulSoup实现抓取网页数据

最新推荐文章于 2023-09-21 10:07:20 发布

平步青云p

最新推荐文章于 2023-09-21 10:07:20 发布

阅读量1.9k

点赞数

分类专栏：学习笔记

本文链接：https://blog.csdn.net/ping550/article/details/79025857

版权

1环境：pycharm，python3.4

2.源码解析

import requests

import re

from bs4 import BeautifulSoup

#通过requests.get获取整个网页的数据

def getHtmlText(url):
try:
r = requests.get(url)
# to cheack r.status_code is your expected
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:

return "craw failed"

#下图是网页中的内容：

#解析页面内容，通过find_all函数find所有的a标签的内容，返回一个list，

然后通过正则表达式匹配re.findall(r"[s

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

平步青云p

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python的BeautifulSoup实现抓取网页数据

1环境：pycharm，python3.42.源码解析import requestsimport refrom bs4 import BeautifulSoup#通过requests.get获取整个网页的数据def getHtmlText(url): try: r = requests.get(url) # to che
复制链接

扫一扫