python爬虫,记录爬取全球所有国家-首都的简单爬虫
本来以为简单至极,没想到获取数据还是花费了大把功夫。先上图
<table>
<tr>
<td>
<strong>1</strong>
</td>
<td>
<a>中国</a>
</td>
<td>
北京
</td>
</tr>
</table>
看起来很简单吧?总共有6个表格,217国家-首都。所有的关键数据都在中。只要循环就能拿到数据,关键是怎么拿。一下是我的方法。
def get_data(response):
#解析网页
soup = BeautifulSoup(response, 'lxml')
result = soup.find_all('h2')
state = []
for s in result:
'''
有大量带'\t'