- 博客(5)
- 收藏
- 关注
原创 把你的Centos设置成代理ip服务器
前言:最近在公司做爬虫相关的工作,做过数据抓取的都知道,写程序抓取数据的过程并不像平常我们用浏览器打开网页那么简单!大多数的网站为了自己站点的性能和数据安全都设置了各种反爬策略。最常见的就是添加验证码,需要用户登陆,单个IP有次数和频率限制等等!所以广大的爬虫工程师在抓取数据之前都要先调研一下这个网站的反爬策略!当我们不能正常访问网站时,我们可以在程序中设置代理IP来判断网站是不是封禁了我们的IP
2016-11-04 09:34:20 8299
原创 让你的Jsoup支持Xpath
Xpath是专业的xml结构化文档的查询语言,语法功能强大,本文不涉及xpath语法教程。jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据,但是选取某个元素时还是没有xpath那么简单直接,而且xpath带了很多选择库。然而遗憾的时,jsoup并不
2016-09-29 16:31:00 5575 3
原创 本地Consumer和Producer无法使用远程Kafka服务器的处理办法
之前连接公司的的Kafka服务器一直没有没有问题,最近在自己的服务器上装了一个Kafka做学习使用,安装完成后一直无法使用,处理过程可谓上一波三折,下面分享一下我的处理经验,以便帮助有需要的朋友,少走弯路。1、版本问题:在apache官网上,有两个kafka0.10的版本一个是scala2.11的一个是2.10的,据scala官网描述,scala2.11主要在jdk6以上使用,scala2
2016-08-27 22:13:50 14500 5
原创 JVM内存区域和垃圾回收
在JVM规范中,java虚拟机在在运行时用到的存储不同类型数据的区域统称为-Java运行时数据区在java运行时数据区包括一些部分:1、程序计数器2、方法区3、栈(虚拟机栈、本地方法栈)4、堆(永久代、老年代、新生代)如图(灰色部分是线程私有的部分、黄色部分为线程共享的部分)我们先编写一段简单的代码,在后面能帮助我们理解java虚拟机内存模型packag
2016-08-26 10:13:40 1508
原创 聚焦网络爬虫之Xpath+HttpClient快速实现页面新闻抓取
最近因为项目需求,抓取了大大小小多个网站的新闻,刚开始写用的是jsoup解析页面,每个站点都有写一套解析方案,效率较慢,后来利用xpath解析,开发数度有了很大的提升,在一周内完成了一百多个站点的新闻抓取。下面是我一个简单示例,博主刚毕业,还是个技术小白,如有写的不对或不妥的地方,请评论指出类,大家共同进步为了帮助有需要的朋友,下面贴上我写的代码模型,由于新闻网站一般没有反爬,所有
2016-08-19 15:54:58 3726 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人