爬虫
文章平均质量分 83
wangjinyang_123
这个作者很懒,什么都没留下…
展开
-
使用Jsoup解析HTML和文档
对不需要登陆的网页或者已经获得到的文档的解析可以使用Jsoup,Jsoup提供了相应的API供我们使用。 Jsoup的官方文档 http://www.open-open.com/jsoup/ 下面是Jsoup的操作,使用见注释 package Jsoup_SWPU; import java.io.File; import java.io.IOExce原创 2015-10-11 11:57:22 · 598 阅读 · 0 评论 -
htmlUnit的使用
htmlUnit的功能比Jsoup要强大一些,是一个没有界面的浏览器,可以模拟登陆。 还可以支持XPath。 下面是一个模拟百度搜索的例子: package com.swpu; import java.io.IOException; import java.net.MalformedURLException; import com.gargoylesoftware原创 2015-10-11 14:40:44 · 4072 阅读 · 0 评论 -
学习爬虫的记录
学了一些爬虫的入门,记录一下。 步骤:爬取网上所需要的东西,下载,分析。 用的Java语言,其他语言也可以。 有很多已经封装好的包可以直接拿过来用,例如httpClient、Jsoup、htmlUnit等,还有一个XPath,它能够提取出需要的数据,htmlUnit支持,Jsoup不支持。Jsoup和htmlUnit本身也自带有提取数据的API。原创 2015-10-11 11:42:52 · 443 阅读 · 0 评论 -
XPath的使用
前面介绍了Jsoup,现在记录一下XPath XPath主要是NodeSet和Node,NodeSet是节点的集合,Node是一个节点。其他的是一样的操作。 XPath的操作: package SWPU; import java.io.File; import java.io.FileInputStream; import javax.xml原创 2015-10-11 14:32:09 · 595 阅读 · 0 评论 -
获取APP的请求接口
在获取手机APP上的一些数据时,不像从网页中直接提取那么方便,可以通过找接口的方式,找到一个请求接口,往往这个接口都带有请求参数,可以通过改变这些请求参数来获取想要的数据。 想要找到接口,一个办法是:将自己电脑作为代理服务器,数据从手机传到电脑,电脑当代理服务器再转发,这时在电脑上会有拦截的程序,比如fiddler,会获取发送的包和返回的数据,这时再找json格式的数据,若是要找的接口,可以通过改原创 2016-02-25 09:25:26 · 14406 阅读 · 0 评论