python网络爬虫抓取ajax动态网页数据：以抓取KFC门店地址为例

郭不耐

于 2015-08-07 15:14:34 发布

阅读量1.2w

点赞数 1

分类专栏： python 网络爬虫

本文链接：https://blog.csdn.net/guoweish/article/details/47339819

版权

本文通过实例介绍了如何使用Python网络爬虫抓取KFC官网的门店地址，通过分析页面结构，利用BeautifulSoup和Selenium+PhantomJS等工具，详细讲解了抓取动态加载数据的方法，并提供了抓取代码片段。最后强调了在抓取过程中避免因页面加载延迟而造成的问题。

摘要由CSDN通过智能技术生成

一，尝试用BeautifulSoup抓取

先打开KFC网站门店列表页面：http://www.kfc.com.cn/kfccda/storelist/index.aspx

可以看到门店列表如下图：

打开Chrome Developer Tools观察页面结构，找到标签如下：

发现要的数据位于id='listhtml'的表里，门店地址数据位于第二个tr开始的行里，尝试用bs抓取：

url = 'http://www.kfc.com.cn/kfccda/storelist/index.aspx'
html = urllib.urlopen(url).read().decode('utf-8')
bsObj = Beau