爬虫
after_you
这个作者很懒,什么都没留下…
展开
-
java中几种解析html的工具
HTML分析是一个比较复杂的工作,Java世界主要有几款比较方便的分析工具:1.Jsoup Jsoup是一个集强大和便利于一体的HTML解析工具。它方便的地方是,可以用于支持用jQuery中css selector的方式选取元素,这对于熟悉js的开发者来说基本没有学习成本。String content = "blabla";Document doc = JSoup.parse(c转载 2017-03-28 11:44:56 · 3180 阅读 · 1 评论 -
网络爬虫---牛刀小试
一、写在前面(本专栏分为“java版微博爬虫”和“python版网络爬虫”两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github,有兴趣的可以去看下,链接地址在文末。)网络爬虫根据需求的不同也分不同种类:1.一种是爬取网页链接,通过url链接得到这个html页面中指定的链接,把这些链接存储起来,再依次以这些链接为源,再次爬取连接指向html页面中的链接……转载 2017-03-23 18:17:36 · 477 阅读 · 0 评论 -
网络爬虫--如何抓取html页面和httpClient的使用
一、写在前面上篇文章以网易微博爬虫为例,给出了一个很简单的微博爬虫的爬取过程,大概说明了网络爬虫其实也就这么回事,或许初次看到这个例子觉得有些复杂,不过没有关系,上篇文章给的例子只是让大家对爬虫过程有所了解。接下来的系列里,将一步一步地剖析每个过程。爬虫总体流程在上篇文章已经说得很清楚了,没有看过的朋友可以去看下:【网络爬虫】[java]微博爬虫(一):网易微博爬虫(自定义关键字爬取微博信转载 2017-03-23 18:18:51 · 11424 阅读 · 1 评论 -
网络爬虫--庖丁解牛,html的结构分析和正则切分
在上一篇文章中已经通过请求的url地址把html页面爬取下来了,这里分别以网易微博的html和新浪微博的html为例来分析如何提取微博数据。一、网易微博解析**相比新浪微博的html结构,网易微博的比较容易明显地看出来,也容易找到微博数据。查看其html结构不是网页里右键→“查看网页源代码”,那里的微博正文是以html标签形式显示的,而程序实际请求返回得到的html的微博正文是以json格转载 2017-03-23 18:21:46 · 391 阅读 · 0 评论 -
网络爬虫--数据处理,jsoup工具解析html,dom4j解析xml
之前提到过,对于简单的网页结构解析,可以直接通过观察法、手工写正则解析,可以做出来,比如网易微博。但是对于结构稍微复杂点的,比如新浪微博,如果还用正则,用眼睛一个个去找,未免太麻烦了。本文介绍两个工具包:解析html, xml的jsoup,和读写xml的dom4j。工具包jsoup是解析html、xml的利器,利用jsoup可以快速读取html等规范文档格式的节点数据,比正则解析省事多了,转载 2017-03-23 18:23:17 · 790 阅读 · 0 评论 -
网络爬虫--防止爬虫被屏蔽的集中方式的总结
爬虫的目的就是大规模地、长时间地获取数据,跟我们正常浏览器获取数据相比,虽然机理相差不大,但总是一个IP去爬网站,大规模集中对服务器访问,时间一长就有可能被拒绝。关于爬虫长时间爬取数据,可能会要求验证码,即便是多个账号轮流爬取仍然会出现要求输入验证码的情况。技巧一:设置下载等待时间/下载频率大规模集中访问对服务器的影响较大,爬虫可以短时间增大服务器负载。这里需要注意的是:设定下载等待时间的转载 2017-03-23 18:24:22 · 18690 阅读 · 0 评论 -
爬虫中网页爬取的内容出现乱码(gb2312 --> utf-8)
前言 今天在测试爬虫项目时,发现了一个很严肃的问题,当爬取的网页编码格式为gb2312时,按照一般的办法转化为utf-8编码时总是乱码,PS:爬取的所有网页无论何种编码格式,都转化为utf-8格式进行存储。一、问题出现 使用这篇文章里面的方法可以直接爬取页面信息并保存至本地使用Httpclient实现网页的爬取并保存至本地,当爬取这个网页时http://stock.10转载 2017-04-20 11:21:53 · 16551 阅读 · 0 评论 -
java实现的截取网页图片的方式
事实上,如果您想以Java实现网页截图,也就是“输入一段网址,几秒钟过后就能截取一张网页缩略图”的效果。那么,您至少有3种方式可以选择。 1、最直接的方式——使用Robot 方法详解:该方法利用Robat提供的强大桌面操作能力,硬性调用浏览器打开指定网页,并将网页信息保存到本地。 优势:简单易用,不需要任何第三方插件。 缺点:不能同时转载 2017-04-26 09:33:51 · 5830 阅读 · 0 评论