python 数据抓取三种方法

我不是打字员

于 2021-12-31 14:53:08 发布

阅读量5.9k

点赞数

文章标签： python 开发语言后端

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a379749/article/details/122256036

版权

本文介绍了Python进行数据抓取的三种方法：正则表达式、BeautifulSoup和lxml。通过实例展示了如何使用这些库从网页中抓取国家名称和概况，并引用了性能对比数据。

摘要由CSDN通过智能技术生成

三种数据抓取的方法
正则表达式（re库）
BeautifulSoup（bs4）
lxml
*利用之前构建的下载网页函数，获取目标网页的html，我们以

https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/为例，获取html。

from get_html import download

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)

*假设我们需要爬取该网页中的国家名称和概况，我们依次使用这三种数据抓取的方法实现数据抓取。
1.正则表达式

from get_html import download
import re

url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/'
page_content = download(url)
country = re.findall('class="h2dabiaoti">(.*?)</h2>', page_content) #注意返回的是list
survey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content)
survey_info_list = re.findall('<p>　　(.*?)</p>', survey_data[0])
survey_info = ''.join(

最低0.47元/天解锁文章

我不是打字员

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

我不是打字员 CSDN认证博客专家 CSDN认证企业博客

码龄3年

117: 原创

29万+: 周排名

83万+: 总排名

21万+: 访问

: 等级

1530: 积分

159: 粉丝

222: 获赞

61: 评论

641: 收藏

私信

关注

热门文章

最新评论

Python open 函数
zhiyinge72bdj: 应该是有4个参数吧
Python一键转Jar包 Java调用Python
想努力的人: ai算法也能打包成jar吗
如何仅用 Django 实现反向代理？
实习的骑象人: 请教一下，上游的响应会被渲染到diazo_theme_template的哪个位置呢？
怎么同时安装python3和python2
WySen-Yeah: 兄弟，下载pip的时候不成功，然后爆红是网络的问题，开个代理就可以了，虽然可以直接去pip网站去下，但我觉得开个代理直接用命令跑更方便
怎么同时安装python3和python2
早睡睡睡: 基本按照楼主的指引，全部装完了，最后一步查看pip2 -v的时候发现看不了，只能看pip3 -v的。[code=csharp]C:\Users\74606>pip2 -V Fatal error in launcher: Unable to create process using '"D:\python\Python2\python.exe" "D:\python\Python2\Scripts\pip2.exe" -V' [/code] 然后我去Python2的pip[code=csharp]C:\Users\74606>python2 -m pip install --upgrade pip --force-reinstall Collecting pip Exception: Traceback (most recent call last): File "D:\python\Python2\lib\site-packages\pip\basecommand.py", line 223, in main status = self.run(options, args) File "D:\python\Python2\lib\site-packages\pip\commands\install.py", line 280, in run requirement_set.prepare_files(finder) File "D:\python\Python2\lib\site-packages\pip\req\req_set.py", line 317, in prepare_files functools.partial(self._prepare_file, finder)) File "D:\python\Python2\lib\site-packages\pip\req\req_set.py", line 304, in _walk_req_to_install more_reqs = handler(req_to_install) File "D:\python\Python2\lib\site-packages\pip\req\req_set.py", line 439, i [/code]

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。