爬虫
文章平均质量分 95
Deeply_bless
这个作者很懒,什么都没留下…
展开
-
Selenium+PhantomJS使用详解
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。Selenium 自己不...转载 2018-08-29 20:25:43 · 1195 阅读 · 0 评论 -
一:urllib2使用
请求的发送 # 通过urllib2.Request(‘url’, data=data, header=header) request = urllib2.Request(‘url’) # 向指定的URL发送请求,并返回服务器响应的类文件对象 response = urllib2.urlopen(request) # 服务器返...原创 2018-08-23 23:29:00 · 123 阅读 · 0 评论 -
lxml库 xpath
lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。lxml python 官方文档:http://lxml.de/index.html需要安装C语言库,可使用 pip 安装...转载 2018-08-29 20:33:47 · 237 阅读 · 0 评论 -
二:selenium使用
from selenium import webdriver #引入selenium的浏览器控制模块browser = webdriver.Chrome() # 实例化一个headless浏览器browser.get("http://www.baidu.com") # 访问百度首页browser.find_element_by_id("kw").send_keys("selenium"...原创 2018-08-30 10:01:28 · 156 阅读 · 0 评论