![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
郭不耐
数据可视化爱好者,专注于d3.js;
展开
-
python网络爬虫抓取ajax动态网页数据:以抓取KFC门店地址为例
一,尝试用BeautifulSoup抓取先打开KFC网站门店列表页面:http://www.kfc.com.cn/kfccda/storelist/index.aspx可以看到门店列表如下图:打开Chrome Developer Tools观察页面结构,找到标签如下:发现要的数据位于id='listhtml'的表里,门店地址数据位于第二个tr开始的行里,尝试原创 2015-08-07 15:14:34 · 12847 阅读 · 4 评论 -
selenium抓取元素排除某个特定的class标签
排除某个因素,第一优选想到正则表达式,无奈折腾半天没有成功,感觉是对元素的attrs按search在操作,$对字符串末尾检测都没什么用。语法如下:text_match((By.XPATH, "//tr[5]/td[11]/div"), r"[0,1]{1}.[0-9]{6}")BeautifulSoup可以用element[‘class’]输出元素的class进行检测,但是se原创 2015-08-13 13:41:27 · 9207 阅读 · 0 评论 -
gb2312网页转码输出utf-8格式文本
环境:python 2.7坑:urlopen链接读取后就要转,不能用bs解析后再转:url = "http://kfc.xixik.com/shop/shanghai/kfc"html = urllib.urlopen(url).read().decode('gbk')bsObj = BeautifulSoup(html, "html.parser")address = bsObj.原创 2015-07-31 21:50:29 · 922 阅读 · 0 评论 -
webdriver查找元素的几种方法
#通过id方式定位webdriver.find_element_by_id("kw")#通过name方式定位webdriver.find_element_by_name("wd")#通过tag name方式定位webdriver.find_element_by_tag_name("input")#通过class name 方式定位webdriver.find_element_by_clas原创 2015-08-04 16:10:41 · 1008 阅读 · 0 评论