简单的java爬虫

记写过的一个简单的java爬虫:(单线程的)

1:创建HttpClient

2:创建请求方法:HttpGet httpGet = new HttpGet(url);

3:设置Header模拟浏览器行为:

httpGet.setHeader("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36");

4:这样通过httpClient, httpGet可以抓取数据

        4.1:发送请求,收取响应,获取网站响应的html,

HttpResponse httpResponse = httpClient.execute(httpGet);

       4.2:解析响应

String entity = EntityUtils.toString(httpResponse.getEntity());//得到的String就是页面里面的内容

        4.3:再将页面的内容进行解析,获取我们需要的内容,解析方式,采用Jsoup解析

                4.3.1:采用Jsoup解析Document doc = Jsoup.parse(html);

                4.3.2://获取html标签中的内容

Elements elements=doc.select("ul[class=item_con_list]").select("li[class=con_list_item default_list]");//此为得到列表中的每个元素

for (Element ele:elements) {

           String  thingID=ele.attr("data-positionid");/得到数据

 .........

 .........

Model.setThingID(thingID);///将得到的tingID存入实体类Model

 .........

 ........

}

//将每一个对象的值,保存到List集合中

data.add(Model);

 

5:将得到的数据存入数据库(将得到model集合data写入数据库即可)

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值