Requests 学习应用-行政区划代码获取
- 获取
- 解析
- 数据整理
1. 获取
这个网址的原始界面长这样)
import requests as re
from bs4 import BeautifulSoup
import pandas as pd
url='http://www.mca.gov.cn/article/sj/xzqh/2020/2020/2020112010001.html'#民政部行政区划代码的页面
r=re.get(url)
r.status_code
print(r.text)
2. 解析
soup=BeautifulSoup(r.text,'lxml')
print(soup)
print(soup.get_text())
3.数据整理
#将地区和行政区划分码分成两个lst
i=1
lst1=list()
lst2=list()
for string in soup.stripped_strings:
if i>6:#由于行政区域数据从第7项开始,因此剔除前面内容
if i%2==0:
lst1.append(string)
else:
lst2.append(string)
i=1+i
print(lst1)
print(lst2)
两个list内容分别如下
data=pd.DataFrame([lst1,lst2]).T
print(data)
清洗一下就是完整的行政区划代码啦