正则表达式练手
- 获取url&解析
- 正则表达式&匹配
- 写入表格&保存
import re
from bs4 import BeautifulSoup
import openpyxl
from urllib import request
url='http://www.fortunechina.com/fortune500/c/2018-07/19/content_311046.htm'
req=request.urlopen(url).read()
soup1 =BeautifulSoup(req,'html.parser')
'''
<tbody>
<tr>
<td>1</td> 排名
<td>1</td> 上年排名
<td><a href="../../../../global500/3/2018" target="_blank">沃尔玛(WALMART) </a></td> 名称
<td>500,343</td> 营业收入 (百万美元)
<td>9,862</td> 利润 (百万美元)
<td>美国</td></tr> 国家
'''
#正则表达式
ranking = re.compile(r'<tr>\n<td>(\d*)</td>\n<td>(.*)</td>') #排名 ,有的企业上年排名缺失,故用通配符
revenue = re.compile(r'''</a></td>\n<td>(.*)</td>\n<