![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 54
lumenxu
这个作者很懒,什么都没留下…
展开
-
使用jsoup完成模拟登陆
大概的思路如下:1,获取请求的参数,和对应的请求url2,将参数封装到一个Map 中3,使用对应的参数发post请求,获取response4,判断时候模拟登陆成功 /** * 读取配置文件中的登录参数 * * @param loginFileName配置文件的名称 * @return 封装了登录信息的一个map原创 2016-04-11 10:32:07 · 2336 阅读 · 0 评论 -
crawler4j简单总结
最近在需要用到爬虫,学习了crawler4j这个简单易用的爬虫框架。1,crawler4j有两个核心类,一个是webcrawler ,负责写url的匹配规则,解析html页面,提取数据等相关的代码2,controller 这个类负责控制爬虫,比如,添加爬虫的seedURL,设置爬虫的爬去深度,是否避开robot.txt等3,webcrawler 这个类有两个很重要的方法,shouldv原创 2016-04-11 10:46:22 · 2633 阅读 · 0 评论 -
crawler4爬虫速度的优化
crawler4j框架中的webcrawler中的shouldVisit()方法负责写url 的匹配规则,如果匹配规则写的好的能够在一定程度上提高爬虫的效率,具体的优化思路如下。我们要通过分析网站的页面与页面之间的层级关系,找到从seedURL到最终的落地页的之间的一条最优的路径,比如说seedURL->A->B->落地页,那么我在shouldvisit()方法中就可以配3个规则,seedUR原创 2016-04-11 11:16:21 · 834 阅读 · 0 评论