网络爬虫
文章平均质量分 76
Kimt
这个作者很懒,什么都没留下…
展开
-
Java爬虫入门(一):单机单程序单线程-手动输入url获取新闻内容
目的 一:使用httpclient模拟发送http请求,获取页面数据。 二:使用jsoup解析 一步骤获取的数据(HTML)准备: 用maven构建项目,添加依赖logback,httpclient,项目结构代码:-------抽象父类--------/** * Created by man on 2017/11/22. */public ab原创 2017-11-22 16:43:10 · 558 阅读 · 0 评论 -
Java爬虫入门(二):单机单程序单线程-提供种子url用广度优先算法实现新闻资讯获取
在一的基础上,简单新增了广度url爬取算法。缺点:单线程,url爬取算法,新闻内容爬取,都丢在同一个线程,效率很慢。 后续继续优化。(自己有留意,没有爬取过疯狂(程序刚入门),所以没有ip跳板。)待解决问题: 用多线程,实现业务分离(内容爬取算法,url爬取算法),提高抓取效率,优化抓取算法,待抓取队列数据结构选用,----------------main测试方法---------原创 2017-11-23 15:05:16 · 644 阅读 · 0 评论