抓取世界500强公司

本文介绍了如何运用Python和正则表达式进行实践操作,详细讲述了从获取URL到解析数据,再到匹配所需信息并将结果整理成表格并保存的过程。
摘要由CSDN通过智能技术生成

正则表达式练手

  1. 获取url&解析
  2. 正则表达式&匹配
  3. 写入表格&保存
import re
from bs4 import BeautifulSoup
import openpyxl
from urllib import request

url='http://www.fortunechina.com/fortune500/c/2018-07/19/content_311046.htm'

req=request.urlopen(url).read()
soup1 =BeautifulSoup(req,'html.parser')
'''
<tbody>
<tr>
<td>1</td> 排名
<td>1</td> 上年排名
<td><a href="../../../../global500/3/2018" target="_blank">沃尔玛(WALMART) </a></td>  名称
<td>500,343</td> 营业收入 (百万美元)
<td>9,862</td> 利润 (百万美元)
<td>美国</td></tr> 国家
'''
#正则表达式
ranking = re.compile(r'<tr>\n<td>(\d*)</td>\n<td>(.*)</td>')  #排名 ,有的企业上年排名缺失,故用通配符
revenue = re.compile(r'''</a></td>\n<td>(.*)</td>\n<
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值