java 网页数据采集_利用Java怎么对网页数据进行获取

利用Java怎么对网页数据进行获取

发布时间:2021-01-22 17:00:37

来源:亿速云

阅读:87

作者:Leah

这篇文章将为大家详细讲解有关利用Java怎么对网页数据进行获取,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。

1:通过HttpClient请求到达某网页的url访问地址(特别需要注意的是请求方式)

2:获取网页源码

3:查看源码是否有我们需要提取的数据

4:对源码进行拆解,一般使用分割,正则或者第三方jar包

5:获取需要的数据对自己创建的对象赋值

6:数据提取保存

下面简单的说一下在提取数据中的部分源码,以及用途:/**

* 向指定URL发送GET方法的请求

*

* @param url

*      发送请求的URL

* @param param

*      请求参数,请求参数应该是 name1=value1&name2=value2 的形式。

* @return URL 所代表远程资源的响应结果

*/

public static String sendGet(String url, String param) {

String result = "";

BufferedReader in = null;

try {

String urlNameString = url;

URL realUrl = new URL(urlNameString);

// 打开和URL之间的连接

URLConnection connection = realUrl.openConnection();

// 设置通用的请求属性

connection.setRequestProperty("accept", "*/*");

connection.setRequestProperty("connection", "Keep-Alive");

connection.setRequestProperty("user-agent",

"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");

// 建立实际的连接

connection.connect();

// 获取所有响应头字段

Map> map = connection.getHeaderFields();

// 定义 BufferedReader输入流来读取URL的响应

in = new BufferedReader(new InputStreamReader(

connection.getInputStream())); //这里如果出现乱码,请使用带编码的InputStreamReader构造方法,将需要的编码设置进去

String line;

while ((line = in.readLine()) != null) {

result += line;

}

} catch (Exception e) {

System.out.println("发送GET请求出现异常!" + e);

e.printStackTrace();

}

// 使用finally块来关闭输入流

finally {

try {

if (in != null) {

in.close();

}

} catch (Exception e2) {

e2.printStackTrace();

}

}

return result;

}

解析存储数据public Bid getData(String html) throws Exception {

//获取的数据,存放在到Bid的对象中,自己可以重新建立一个对象存储

Bid bid = new Bid();

//采用Jsoup解析

Document doc = Jsoup.parse(html);

// System.out.println("doc内容" + doc.text());

//获取html标签中的内容tr

Elements elements = doc.select("tr");

System.out.println(elements.size() + "****条");

//循环遍历数据

for (Element element : elements) {

if (element.select("td").first() == null){

continue;

}

Elements tdes = element.select("td");

for(int i = 0; i 

this.relation(tdes,tdes.get(i).text(),bid,i+1);

}

}

return bid;

}

得到的数据Bid {

h3 = '详见内容',

itemName = '诉讼服务中心设备采购',

item = '货物/办公消耗用品及类似物品/其他办公消耗用品及类似物品',

itemUnit = '详见内容',

areaName = '港北区',

noticeTime = '2018年10月22日 18:41',

itemNoticeTime = 'null',

itemTime = 'null',

kaibiaoTime = '2018年10月26日 09:00',

winTime = 'null',

kaibiaoDiDian = 'null',

yusuanMoney = '¥67.00元(人民币)',

allMoney = 'null',

money = 'null',

text = ''

}

关于利用Java怎么对网页数据进行获取就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值