python
郭不耐
数据可视化爱好者,专注于d3.js;
展开
-
python网络爬虫抓取ajax动态网页数据:以抓取KFC门店地址为例
一,尝试用BeautifulSoup抓取先打开KFC网站门店列表页面:http://www.kfc.com.cn/kfccda/storelist/index.aspx可以看到门店列表如下图:打开Chrome Developer Tools观察页面结构,找到标签如下:发现要的数据位于id='listhtml'的表里,门店地址数据位于第二个tr开始的行里,尝试原创 2015-08-07 15:14:34 · 12873 阅读 · 4 评论 -
PYTHON将list或/dict对象写入txt/json文件
不能直接将list或dict对象进行写入,会出现typeError。一、写list到txt文件:ipTable = ['158.59.194.213', '18.9.14.13', '58.59.14.21']fileObject = open('sampleList.txt', 'w')for ip in ipTable: fileObject.write(ip) fileObj原创 2015-07-28 15:41:53 · 124638 阅读 · 0 评论 -
selenium抓取元素排除某个特定的class标签
排除某个因素,第一优选想到正则表达式,无奈折腾半天没有成功,感觉是对元素的attrs按search在操作,$对字符串末尾检测都没什么用。语法如下:text_match((By.XPATH, "//tr[5]/td[11]/div"), r"[0,1]{1}.[0-9]{6}")BeautifulSoup可以用element[‘class’]输出元素的class进行检测,但是se原创 2015-08-13 13:41:27 · 9271 阅读 · 0 评论 -
gb2312网页转码输出utf-8格式文本
环境:python 2.7坑:urlopen链接读取后就要转,不能用bs解析后再转:url = "http://kfc.xixik.com/shop/shanghai/kfc"html = urllib.urlopen(url).read().decode('gbk')bsObj = BeautifulSoup(html, "html.parser")address = bsObj.原创 2015-07-31 21:50:29 · 945 阅读 · 0 评论 -
在python中判断字符串是str还是unicode
if isinstance(iniStr , unicode ): print "unicode"elif isinstance(iniStr, str): print "str"else: print "no idea"原创 2015-08-03 12:22:02 · 12272 阅读 · 4 评论 -
webdriver查找元素的几种方法
#通过id方式定位webdriver.find_element_by_id("kw")#通过name方式定位webdriver.find_element_by_name("wd")#通过tag name方式定位webdriver.find_element_by_tag_name("input")#通过class name 方式定位webdriver.find_element_by_clas原创 2015-08-04 16:10:41 · 1035 阅读 · 0 评论