自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(61)
  • 资源 (1)
  • 收藏
  • 关注

原创 Spark优化及总结

本篇文章是关于我在学习Spark过程中遇到的一些问题及总结,分为Spark优化、RDD join问题、遇到的问题、总结、参考资料几个部分。 一:Spark优化 1、设置序列化器为KryoSerializer    Spark默认使用的是Java序列化机制,但是Spark也支持使用Kryo序列化库,Kryo序列化机制比Java序列化机制性能高10倍左右     2、压缩机制     如果数

2016-08-06 10:54:05 4118 1

原创 Spark 中Accumulators 和 Broadcast Variables的使用

**Spark 中Accumulators 和 Broadcast Variables的使用**一:Accumulators   重点说一下Accumulators 的使用,首先先描述下的经历过程,我遇到这样一个问题,需要获取RDD中某个字段的值,放入HashSet中,为后续操作做准备。但是会发现在RDD的foreach中直接把这个字段的值放入HashSet中,并且,我在foreach做了pr

2016-08-06 10:39:42 2179

转载 Linux CentOS6系统环境安装VNC可视化

大部分时候,我们习惯Windows操作系统的图形化界面,如果在开始接触Linux系统的无图形化界面肯定有些不习惯。但是,有些项目需要的时候我们需要使用到Linux系统的VPS,然后安装图形化界面节省成本。毕竟在大部分海外VPS主机商提供的VPS服务中,Linux系统可选择性是比较大的,而且相比较Windows VPS主机,Linux VPS会便宜很多。我们在操作项目的时候,可以在Linux VPS

2016-05-08 15:02:09 2809

转载 Java集合---ConcurrentHashMap原理分析

集合是编程中最常用的数据结构。而谈到并发,几乎总是离不开集合这类高级数据结构的支持。比如两个线程需要同时访问一个中间临界区(Queue),比如常会用缓存作为外部文件的副本(HashMap)。这篇文章主要分析jdk1.5的3种并发集合类型(concurrent,copyonright,queue)中的ConcurrentHashMap,让我们从原理上细致的了解它们,能够让我们在深度项目开发中获益非浅

2016-04-03 17:11:56 456

转载 中文分词技术(中文分词原理)

一、       为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。二、       

2016-03-23 19:00:04 965 1

转载 搜索引擎选择: Elasticsearch与Solr

搜索引擎选型调研文档Elasticsearch简介*Elasticsearch是一个实时的分布式搜索和分析引擎。它可以帮助你用前所未有的速度去处理大规模数据。它可以用于全文搜索,结构化搜索以及分析,当然你也可以将这三者进行组合。Elasticsearch是一个建立在全文搜索引擎 Apache Lucene™ 基础上的搜索引擎,可以说Lucene是当今最先进,最高效的

2016-03-23 18:25:03 470

转载 理解MySQL——索引与优化

转载:www.cnblogs.com/hustcat/archive/2009/10/28/1591648.html写在前面:索引对查询的速度有着至关重要的影响,理解索引也是进行数据库性能调优的起点。考虑如下情况,假设数据库中一个表有10^6条记录,DBMS的页面大小为4K,并存储100条记录。如果没有索引,查询将对整个表进行扫描,最坏的情况下,如果所有数据页都不在内存,需要读

2016-03-15 17:35:53 444

转载 MySQL索引原理及慢查询优化

转自:http://tech.meituan.com/mysql-index.htmlMySQL凭借着出色的性能、低廉的成本、丰富的资源,已经成为绝大多数互联网公司的首选关系型数据库。虽然性能出色,但所谓“好马配好鞍”,如何能够更好的使用它,已经成为开发工程师的必修课,我们经常会从职位描述上看到诸如“精通MySQL”、“SQL语句优化”、“了解数据库原理”等要求。我们知道一般的应用

2016-03-15 14:53:48 552

转载 内存泄漏、内存溢出

要点内存泄露是指程序中间动态分配了内存,但在程序结束时没有释放这部分内存,从而造成那部分内存不可用的情况,重启计算机可以解决,但也有可能再次发生内存泄露,内存泄露和硬件没有关系,它是由软件设计缺陷引起的。 内存泄漏可以分为4类:1)常发性内存泄漏。发生内存泄漏的代码会被多次执行到,每次被执行的时候都会导致一块内存泄漏。2)偶发性内存泄漏。发生内存泄漏的代码只有在某些特定环境或操作过

2016-03-11 11:48:44 645

原创 Oralce 设置远程访问

今天在虚拟里做sqoop数据迁移,把Oralce的数据迁移到HBase和Hive中去,由于Mysql迁移只需要导入连接驱动jar包即可,而Oralce需要设置远程访问才可以。具体设置如下:一:修改配置文件      目录下的D:\app\Java\product\11.2.0\dbhome_1\NETWORK\ADMIN            具体安装根据自己情况选择

2015-05-28 09:47:09 608

转载 POI操作Excel常用方法总结

转自:http://blog.csdn.net/huazhangena/article/details/7587731一、 POI简介            Apache POI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对Microsoft Office格式档案读和写的功能。二、 HSSF概况             HSSF 是Horribl

2015-05-20 20:17:30 899

原创 考研——留给多年以后自己看

首先声明:我是学计算机的,报考的中南大学,没有报考考研辅导班,听考研班的课都是浪费时间,很多同学把最珍贵的暑假时间都送给考研班了,一定要根据自己情况复习,以下仅是我自己的学习方法和流程,仅供参考。一:数学首先,我是考的数学一,数学一考高数两本书,线性代数一本书和概率统计一本书。数学高数是最难的也是内容最多的,线代次之,概率最简单的。数学要拿高分,高数必须尽可能的拿分,线代和概率是要求拿满分

2015-05-14 15:33:10 3025 2

原创 Hadoop 视频教程 下载

百度网盘账号:657137723@qq.com密码:Ljj657137723内容会不断更新

2015-05-07 15:39:23 743

转载 Heritrix1.14源码分析(14)各种问题总结

转自:http://blog.csdn.net/jazywoo123/article/details/8223254 开博客以及建立Heritrix 群有一段时间了(这里谢谢大家的关注),这篇博客将整理这段时间所遇到的问题.同时由于自己从今年5月份开始就不怎么接触Heritrix,很多东西开始遗忘(不过里面思想没忘),同时目前的工作也没有必要接触Heritrix,所以不可能向之

2015-05-04 19:45:43 765

转载 Heritrix1.14源码分析(13) 如何让Heritrix不间断的抓取

转自:http://blog.csdn.net/jazywoo123/article/details/8223248近段时间在搞定Lucene的一些问题,所以Heritrix源码分析暂时告一段落。今天下午在群里有同学提到了Heritrix异常终止的问题以及让Heritrix不停的抓取(就是抓完一遍后载入种子继续抓取,目前他是写个定时器,定时检查Heritrix是否停止,如果停止

2015-05-04 19:42:58 540

转载 Heritrix1.14源码分析(12) Heritrix的控制中心(大脑)CrawlController

转自:http://blog.csdn.net/jazywoo123/article/details/8223246CrawlController的确是Heritrix的大脑,在Heritrix中拥有无上的权利!可以控制Heritrix的启动、暂停、停止,也定时进行数据统计、数据汇报和文件管理。同时CrawlController也基本上贯穿整个Heritrix代码,和CrawlURI一

2015-05-04 19:42:46 846

转载 Heritrix1.14源码分析(10) Heritrix中的Http Status Code(Http状态码)

转自:http://blog.csdn.net/jazywoo123/article/details/8223234 以前在做Web开发的时候就接触过一些HttpStatus Code,比如404,500.后来接触Heritrix之后才知道HttpStatus Code竟然有如此之多。不一样的HttpStatus Code就代表不一样的Http状态,简单的如成功、失败、重定向等

2015-05-04 19:40:42 755

转载 Heritrix1.14源码分析(11) Heritrix中的URL--CandidateURI和CrawlURI以及如何增加自己的属性

转自:http://blog.csdn.net/jazywoo123/article/details/8223238Url是爬虫的核心,因为爬虫就是依赖URL一层一层的抓取下去,最后完成整个抓取。Heritrix中的URL比较特殊,有以下继承关系(由于不对继承关系作介绍,所以这里就不画图了):          1)org.archive.crawler.datamodel.C

2015-05-04 19:39:55 510

转载 Heritrix1.14源码分析(9) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL

转自:http://blog.csdn.net/jazywoo123/article/details/8223231前面说过Heritrix可以在某个抓取基础上(这里假设为A)继续抓取,因为Heritrix对每一个URL都会有相应的日志处理,同时还有checkpoint(备份中心)。所以只要通过A上的日志就可以完全按照该基础A继续抓取,不会重复抓取任何A抓过的任何东西,也会继续

2015-05-04 19:37:47 774

转载 Heritrix1.14源码分析(6) Heritrix总体介绍

转自:http://blog.csdn.net/jazywoo123/article/details/8223222 网上关于Heritrix的基本介绍有很多,这里就不再重复。我这里主要介绍下它的优缺点。然后我会介绍它的运作流程以及我会从流程中各个点结合源码来分别介绍....      Heritrix整体让人感觉有些复杂和繁琐,一个爬虫写成这样也真是成仙了。接触Her

2015-05-04 19:36:27 529

转载 Heritrix1.14源码分析(8) Heritrix8个处理器(Processor)介绍

转自:http://blog.csdn.net/jazywoo123/article/details/8223228Heritrix采用多线程去抓取数据,每次运行基本都要经过以下8个处理器处理(种子URL、先决条件URL除外),如此形成一整个流程。下面就大概介绍下每个处理器的作用以及大概处理的步骤。以后分析源码的时候再细节分析......        8个处理器都继承

2015-05-04 19:36:24 476

转载 Heritrix1.14源码分析(7) Heritrix的文件结构分析

转自:http://blog.csdn.net/jazywoo123/article/details/8223226每通过Heritrix运行一次抓取后,发现在该Job目录下就会有很多文件。这里说明下每个文件的作用,同时更主要介绍它的日志文件,因为我们可以通过日志文件发现Heritrix的抓取情况。首先贴个图:        以上就是Heritrix完成的文件结构,现在

2015-05-04 19:35:28 528

转载 Heritrix1.14源码分析(4)各个类说明

转自:http://blog.csdn.net/jazywoo123/article/details/8223214Heritrix的类的确很繁琐,往往继承了一层又一层,最多的继承好像有7层。下面就一个包一个包的说明每个类的作用,由于里面Heritrix组件分明,很多组件没用到的同时该组件的类我也没怎么接触,所以这里会忽略一部分,如果有知道的请补充,谢谢!如果对

2015-05-04 19:33:52 1139

转载 Heritrix1.14源码分析(5) 如何让Heritrix在Ecplise等IDE下编程启动

转自:http://blog.csdn.net/jazywoo123/article/details/8223218在Heritrix注释里说Heritrix有三种启动方式,但我感觉只有两种:一种是通过tomcat或者JBOSS或者Jetty等Web容器,还有一种自然就是不通过Web直接编程运行。由于第二种方式更适合调试、研究代码,所以这里就介绍下它的编程启动方式吧....这里

2015-05-04 19:33:24 549

转载 Heritrix1.14源码分析(2) 配置文件order.xml介绍

转自:http://blog.csdn.net/jazywoo123/article/details/8223205order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,如可以控制抓取速度,可以优化电脑性能,可以在某一次的抓取上

2015-05-04 19:31:48 1596 1

转载 Heritrix1.14源码分析(3) 修改配置文件order.xml加快你的抓取速度

转自:http://blog.csdn.net/jazywoo123/article/details/8223209Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix自身着手吧,修改order.xml的一些参数其实也可以达到这一目的.       下面就列出各个参数、说明和理想值

2015-05-04 19:31:04 767

转载 Heritrix1.14源码分析(1) 包介绍

转自:http://blog.csdn.net/jazywoo123/article/details/8223198之前说过要分享下我的爬虫经验,但一直找不到突破口,现在才感觉写点东西真的很难,所以大家真的要感谢那些无私的前辈们,在网上留下的一篇篇可以指点迷津的文章。 想了很久,还是先从Heritrix的包开始说起,然后再说类,最后讲下如何加工Heritrix,也就是将其打造成自己

2015-05-04 19:27:53 665

转载 Heritrix3.0 的安装,使用

转自:http://blog.csdn.net/jazywoo123/article/details/82226421、下载heritrix3.0或heritrix3.1,解压。运行cmd,进入到bin目录下(如笔者的目录:cd D:\heritrix-3.1.0\bin)。运行命令:heritrix -a admin:admin ,这里冒号前面admin是用户名,后面是密

2015-05-04 18:53:05 1440

转载 Berkeley DB Java Edition

转自:http://blog.csdn.net/jimmy1980/article/details/4966551一、 简介       Berkeley DB Java Edition (JE)是一个完全用JAVA写的,它适合于管理海量的,简单的数据。l 能够高效率的处理1到1百万条记录,制约JE数据库的往往是硬件系统,而不是JE本身。l 多线程支持,JE使用超时

2015-04-27 20:47:31 571

转载 HTMLParser使用

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/07/27/2118937.htmlHTMLParser具有小巧,快速的优点,缺点是相关文档比较少(英文的也少),很多功能需要自己摸索。对于初学者还是要费一些功夫的,而一旦上手以后,会发现HTMLParser的结构设计很巧妙,非常实用,基本你的各种需求都可以满足。   

2015-04-27 15:27:51 398

转载 HtmlParser整体框架

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/07/27/2118904.htmlHtmlParser关键包org.htmlparser         定义了htmlparser的一些基础类,其中最为重要的是Parser。Parser是htmlParser的最核心的类。org.htmlpars

2015-04-27 15:27:47 446

转载 HTML转码码

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/09/03/2164638.html本文列举出常用的HTML转码码,相信能够全部记住的没有几人吧。呵呵。反正我是记不住这么多啊。就知道最常用的几个。例如空格了,左箭头,右箭头等。 SYMBOLCODEENTITY NAME™&#8

2015-04-27 10:50:39 929

转载 常见HTTP状态码

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/09/03/2165266.html常见HTTP状态码200 OK301 Moved Permanently302 Found304 Not Modified307 Temporary Redirect400 Bad Request401 U

2015-04-27 10:50:19 309

转载 HttpClient_4 用法 由HttpClient_3 升级到 HttpClient_4 必看

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/07/21/2113252.htmlHttpClient程序包是一个实现了 HTTP 协议的客户端编程工具包,要想熟练的掌握它,必须熟悉 HTTP协议。一个最简单的调用如下: import java.io.IOException;import o

2015-04-27 10:48:13 321

转载 HttpClient 教程 (六)

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/07/21/2113251.html第六章 高级主题6.1 自定义客户端连接在特定条件下,也许需要来定制HTTP报文通过线路传递,越过了可能使用的HTTP参数来处理非标准不兼容行为的方式。比如,对于Web爬虫,它可能需要强制HttpClient接受格式错误的

2015-04-27 10:47:59 412

转载 HttpClient 教程 (五)

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/07/21/2113249.html第五章 HTTP客户端服务5.1 HttpClient门面HttpClient接口代表了最重要的HTTP请求执行的契约。它没有在请求执行处理上强加限制或特殊细节,而在连接管理,状态管理,认证和处理重定向到具体实现上留下

2015-04-27 10:47:17 459

转载 HttpClient 教程 (三)

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/07/21/2113246.html第三章 HTTP状态管理原始的HTTP是被设计为无状态的,面向请求/响应的协议,没有特殊规定有状态的,贯穿一些逻辑相关的请求/响应交换的会话。由于HTTP协议变得越来越普及和受欢迎,越来越多的从前没有打算使用它的系统也开始为应用程序来使用

2015-04-27 10:45:30 443

转载 HttpClient 教程 (四)

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/07/21/2113247.html第四章 HTTP认证HttpClient提供对由HTTP标准规范定义的认证模式的完全支持。HttpClient的认证框架可以扩展支持非标准的认证模式,比如NTLM和SPNEGO。4.1 用户凭证任何用户身份验证的过程都

2015-04-27 10:45:19 415

转载 HttpClient 教程 (二)

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/07/21/2112832.html第二章 连接管理HttpClient有一个对连接初始化和终止,还有在活动连接上I/O操作的完整控制。而连接操作的很多方面可以使用一些参数来控制。2.1 连接参数这些参数可以影响连接操作:'http.

2015-04-27 10:44:17 486

转载 HttpClient 教程 (一)

转自:http://www.cnblogs.com/loveyakamoz/archive/2011/07/21/2112804.html前言超文本传输协议(HTTP)也许是当今互联网上使用的最重要的协议了。Web服务,有网络功能的设备和网络计算的发展,都持续扩展了HTTP协议的角色,超越了用户使用的Web浏览器范畴,同时,也增加了需要HTTP协议支持的应用程序的数

2015-04-27 10:40:51 640

PLSQL DEVELOPER

亲自试过,完美,PLSQL Developer连接64位的ORACLE

2012-11-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除