爬虫
cysdxy
这个作者很懒,什么都没留下…
展开
-
把你的Centos设置成代理ip服务器
前言:最近在公司做爬虫相关的工作,做过数据抓取的都知道,写程序抓取数据的过程并不像平常我们用浏览器打开网页那么简单!大多数的网站为了自己站点的性能和数据安全都设置了各种反爬策略。最常见的就是添加验证码,需要用户登陆,单个IP有次数和频率限制等等!所以广大的爬虫工程师在抓取数据之前都要先调研一下这个网站的反爬策略!当我们不能正常访问网站时,我们可以在程序中设置代理IP来判断网站是不是封禁了我们的IP原创 2016-11-04 09:34:20 · 8287 阅读 · 0 评论 -
让你的Jsoup支持Xpath
Xpath是专业的xml结构化文档的查询语言,语法功能强大,本文不涉及xpath语法教程。jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据,但是选取某个元素时还是没有xpath那么简单直接,而且xpath带了很多选择库。然而遗憾的时,jsoup并不原创 2016-09-29 16:31:00 · 5558 阅读 · 3 评论