![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
java爬虫
文章平均质量分 84
topxin
这个作者很懒,什么都没留下…
展开
-
Java之网络爬虫WebCollector+selenium+phantomjs(一)
http://blog.csdn.net/osaymissyou0/article/details/49386637最近研究了一下爬虫技术,与大家分享一下。由于目前有很多成熟的框架(奉劝不要自己花时间再写爬虫框架了,真心没必要),俺也就从中选一个适合我目前需求或者说相对简单的框架来学习吧。先把各种网络爬虫框架地址曝光一下:基于Java的网络爬虫框架集合。这次学习的框架WebCollector2:W...转载 2018-03-15 10:55:35 · 1035 阅读 · 1 评论 -
图解Fiddler如何抓手机APP数据包【超详细】
http://www.111cn.net/sj/android/90542.htm1、PC端安装Fiddler下载地址:Fiddler.exe,http://www.telerik.com/download/fiddler2、 配置PC端Fiddler和手机(1) 配置Fiddler允许监听https打开Fiddler菜单项Tools->Fiddler Options,选中decrypt h...转载 2018-03-15 15:09:02 · 2508 阅读 · 0 评论 -
学习用java基于webMagic+selenium+phantomjs实现爬虫Demo爬取淘宝搜索页面
团队的技术栈以java为主,并且我的主语言是Java,研究时间不到一周。基于以上原因固放弃python,选择java为语言来进行开发。等之后有时间再尝试python来实现一个。https://www.cnblogs.com/null-qige/p/7844381.html 本次爬虫选用了webMagic+selenium+phantomjs,选用他们的原因如下: webMagic(v...转载 2018-03-15 16:30:36 · 2190 阅读 · 0 评论 -
java调用phantomjs采集ajax加载生成的网页
日前有采集需求,当我把所有的对应页面的链接都拿到手,准备开始根据链接去采集(写爬虫爬取)对应的终端页的时候,发觉用程序获取到的数据根本没有对应的内容,可是我的浏览器看到的内容明明是有的,于是浏览器查看源代码也发觉没有,此时想起该网页应该是ajax加载的。不知道ajax的小朋友可以去学下web开发啦。 采集ajax生成的内容手段不外乎两种。一种是通过http观察加载页面时候的请求,然后我们模仿...转载 2018-03-19 13:49:00 · 268 阅读 · 0 评论 -
爬虫_83款 网络爬虫开源软件
1、http://www.oschina.net/project/tag/64/spider?lang=0&os=0&sort=view& 搜索引擎 NutchNutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且...转载 2018-03-20 16:38:01 · 666 阅读 · 0 评论 -
WebDriver 常用API实例
1、访问网页地址driver.get( url );driver.navigate( ).to( url );2、访问网页前进、后退driver.navigate( ).forward( );driver.navigate( ).back( );3、刷新网页driver.navigate( ).refresh( );4、操作浏览器窗口//设定浏览器在屏幕上的位置的坐标为(150,150)drive...转载 2018-03-29 08:54:55 · 925 阅读 · 0 评论 -
网络爬虫基础-Xpath语法(一)
前言这一章节主要讲解Xpath的基础语法,学习如何通过Xpath获取网页中我们想要的内容;为我们的后面学习Java网络爬虫基础准备工作。备注:此章节为基础核心章节,未来会在网络爬虫的数据解析环节经常使用,学会Xpath解析语法,可为未来爬虫解析省去很多麻烦。Xpath简介 XPath即为XML路径语言,它是一种用来确定XML(标准通用标记语言的子集)文档中某部分位置的语言。XPath基...转载 2018-03-29 09:43:26 · 320 阅读 · 0 评论 -
SELENIUM的三种等待时间
为了提高脚本的稳定性,我们需要在脚本中增加等待时间第一种:强制等待Thread.sleep():固定休眠时间设置,Java的Thread类里提供了休眠方法sleep,导入包后就能使用sleep()方法以毫秒为单位 Thread.sleep(3000);----执行到此时不管什么就固定的等待三秒之后再接着执行后面的操作 第二种:隐式等待方法implicitlyWait()方法比sleep()方法智...转载 2018-03-29 14:51:12 · 1101 阅读 · 0 评论 -
selenium定位不到元素
1>动态ID,每次调用页面出现的元素的ID会动态随机分配。解决方案:推荐使用xpath的相对路径方法查找到该元素。2>内嵌页面Iframe,导致无法定位到Iframe的页面元素。解决方案:driver.switchTo().frame(Id/name/element)来进行进入指定id/name/element的iframe内嵌页面中,从而可以定位iframe内部元素。3>Xpa...转载 2018-03-29 14:53:44 · 229 阅读 · 0 评论