抓取世界500强公司

最新推荐文章于 2021-08-13 22:52:26 发布

咸鱼零

最新推荐文章于 2021-08-13 22:52:26 发布

阅读量1.2k

点赞数

分类专栏：练习文章标签： python 正则表达式

本文链接：https://blog.csdn.net/Severus_20/article/details/88880768

版权

本文介绍了如何运用Python和正则表达式进行实践操作，详细讲述了从获取URL到解析数据，再到匹配所需信息并将结果整理成表格并保存的过程。

摘要由CSDN通过智能技术生成

正则表达式练手

获取url&解析
正则表达式&匹配
写入表格&保存

import re
from bs4 import BeautifulSoup
import openpyxl
from urllib import request

url='http://www.fortunechina.com/fortune500/c/2018-07/19/content_311046.htm'

req=request.urlopen(url).read()
soup1 =BeautifulSoup(req,'html.parser')
'''
<tbody>
<tr>
<td>1</td> 排名
<td>1</td> 上年排名
<td><a href="../../../../global500/3/2018" target="_blank">沃尔玛（WALMART) </a></td>  名称
<td>500,343</td> 营业收入 （百万美元）
<td>9,862</td> 利润 （百万美元）
<td>美国</td></tr> 国家
'''
#正则表达式
ranking = re.compile(r'<tr>\n<td>(\d*)</td>\n<td>(.*)</td>')  #排名 ，有的企业上年排名缺失，故用通配符
revenue = re.compile(r'''</a></td>\n<td>(.*)</td>\n<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

咸鱼零

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
抓取世界500强公司

正则表达式练手获取url&解析正则表达式&匹配写入表格&保存import refrom bs4 import BeautifulSoupimport openpyxlfrom urllib import requesturl='http://www.fortunechina.com/fortune500/c/2018-07/19/content_311...
复制链接

扫一扫