爬虫
文章平均质量分 56
Alternative_19
这个作者很懒,什么都没留下…
展开
-
java爬虫初试(三)有关Selenium RC的知识
总体介绍一下:学长发的链接有1.Selenium的大概介绍;2.selenium的一个博客,挺多实用性文章点击打开链接;3.如何解析一个HTML字符串;http://www.open-open.com/jsoup/parse-document-from-string.htm4.java 网页解析工具包 Jsoup 超时异常:java.net.SocketTimeoutException:Read...原创 2018-04-08 10:57:45 · 299 阅读 · 0 评论 -
对于页面元素存在hidden的情况,如何getElement
WebElement webElement = chrome.findElementByClassName("yms_box"); int current = this.getNextPageNum(webElement); if(current>0){ String jsSetNextPage = "document.getElementById(\"pageNo...原创 2018-06-02 17:14:31 · 434 阅读 · 0 评论 -
selenium如何关闭浏览器中新打开的标签页
昨天发现的问题,第一次解决方法:String jsClose = "self.close()";jse.executeScript(jsClose);发现前面必须要引用chromeSwitchTo这一方法,要不然就会把原窗口关掉,而不是新点开的窗口。但后面又发现这样的话,this指向的就是新窗口,但新窗口关闭之后,this的指向就不知道去哪可能是null了后面的操作就不行了。第二次解决方法:ht...原创 2018-05-08 13:59:05 · 4205 阅读 · 0 评论 -
总结一下在SearchApp下遇到的页面元素的定位方法
1.翻页:①返回页数:先找到标签中所有的<a>,再一个一个比对 //寻找 <a href ="javascript:toPage(2)"> 下一页 </a>(返回当中的2) private int getNextPageNum(WebElement web) { List<WebElement> webElement = web.findEle...原创 2018-05-03 00:35:50 · 357 阅读 · 0 评论 -
java爬虫初试(1)【了解抓取页面是怎么回事】
先讲一下上午遇到的sb问题。1.java导入项目之后,里面的中文注释都是乱码。应该把编码改成utf-8。结果我在我的eclipse-窗口-首选项里,找了半天没有找到code type,想想可能自己装的是简版不正规,后面直接在 项目-右键-属性里修改成utf-8了。-1h2.后来发现导入不了“投信”,会出现valid啥啥的,然后重新解析到新文件夹,重新导入就好了。-40min《零基础写Java知乎爬...原创 2018-04-05 13:59:24 · 226 阅读 · 0 评论 -
网络爬虫技术Jsoup
概述:本周五,接到一个任务,要使用爬虫技术来获取某点评网站里面关于健身场馆的数据,之前从未接触过爬虫技术,于是就从网上搜了一点学习资料,本篇文章就记录爬虫技术Jsoup技术,爬虫技术听名称很牛叉,其实没什么难点,慢慢的用心学习就会了。Jsoup介绍:Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容,Jsoup官网jar包下载地址。Jsoup主要有以下功...转载 2018-04-08 21:15:42 · 330 阅读 · 0 评论 -
Selenium(java)常用API
WebElement相关方法1.点击操作WebElement button = driver.findElement(By.id("login"));button.click();由元素对象调用click()方法; 2.清除操作WebElement username = driver.findElement(By.id("username_input"));username.clear();...转载 2018-04-08 11:01:26 · 894 阅读 · 0 评论 -
Selenium Webdriver元素定位的八种常用方式
页面元素定位是自动化中最重要的事情, selenium Webdriver 提供了很多种元素定位的方法。 测试人员应该熟练掌握各种定位方法。 使用最简单,最稳定的定位方法。 阅读目录自动化测试步骤定位方法大全如何定位通过ID查找元素: By.id()通过Name查找元素:By.name()通过TagName查找元素: By.tagName()通过ClassName 查找元素 By.classNa...转载 2018-04-08 11:00:20 · 592 阅读 · 0 评论 -
Jsoup(java的HTML解析器)简介——使用Java抓取网页数据
概述 jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。jsoup的主要功能如下: 1. 从一个URL,文件或字符串中解析HTML; 2. 使用DOM或CSS选择器来查找、取出数据; 3. 可操作HTML元素、属性、文本; ...转载 2018-04-08 10:59:10 · 431 阅读 · 0 评论 -
对于js代码中document.getElementById(i).style.display ='block';的理解
//目的:点开页面中被hidden的历史记录 //隐藏html代码 由display:none 到 display:block 隐藏代码显示出来后,才可以findElements定位 String jsSetHistoryDate = "document.getElementById(\"tac_box2\").style.display=\"block...原创 2018-06-05 14:15:36 · 9164 阅读 · 0 评论