java网络爬虫

知识点

1、jsoup 解析html,也能解析xml;用jsonp解析html能像jquery一样方便。

2、dom4j(http://www.cnblogs.com/mouse-coder/p/3451243.html) 、xpath 、Jaxb(http://blog.csdn.net/tina13624/article/details/51785417、http://www.oschina.net/code/snippet_12_5581)解析xml,解析xml功能丰富,强大

3、正则匹配页面元素


爬虫需关注的点

爬虫的URL管理、

线程池之类的、

数据流编码:http://blog.csdn.net/turnhead/article/details/48036017



爬虫框架

1、开源爬虫框架各有什么优缺点?http://blog.csdn.net/zyj8170/article/details/538838862

2、github上的java爬虫项目

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值