自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

成就源于知识,知识在于积累。

积累知识=成就自己

  • 博客(124)
  • 资源 (8)
  • 收藏
  • 关注

原创 合同模版网

最美风格新闻客户端,第一次写网页!

2019-12-09 16:17:23 587

原创 vim快速交换前后两行的位置

ddp 光标所在行跟下面一行进行交换xp 光标所在的字符后面一个字符进行交换

2016-08-19 12:15:13 8717

原创 SparkSQL读取数据源

sparkSQL读取数据源

2016-07-14 15:53:40 2887

原创 在idea中执行scala程序是出现问题

Error:scalac: Error: Could not find an output directory for D:\work\ideawork\SDKBehaviorSpark\src\main\scala\com\bonree\sdk\behavior\executor\day\SingleDayActiveUserExecutor.scala in List((D:\work\ide

2016-06-15 18:39:46 5648 2

原创 spark读写hdfs后出现的异常错误

org.apache.spark.scheduler.LiveListenerBus {Logging.scala:95} - Listener EventLoggingListener threw an exceptionjava.lang.reflect.InvocationTargetException        at sun.reflect.GeneratedMethodA

2016-05-27 19:07:22 6111 6

转载 Spark 独立部署模式

除了在 Mesos 或 YARN 集群上运行之外, Spark 还提供一个简单的独立部署的模块。你通过手动开始master和workers 来启动一个独立的集群。你也可以利用我们提供的脚本 .它也可以运行这些进程在单个机器上进行测试。安装 Spark 独立集群部署Spark最简单的方法就是运行./make-distribution.sh 脚本来创建一个2进制发行版.这个版本能部

2016-05-12 20:38:27 595

转载 Spark运行模式(一)-----Spark独立模式

除了可以在Mesos或者YARN集群管理器上运行Spark外,Spark还提供了独立部署模式。你可以通过手动启动一个master和workers,或者使用提供的脚本来手动地启动单独的集群模式。你也可以在一台单独的机器上启动这些进程用来测试。以独立模式安装Spark集群你只需要将编译好的Spark版本拷贝到集群中的每台节点上。手动启动集群你可以

2016-05-12 20:37:03 773

原创 hive数据删除和备份

hive数据备份和根据条件删除数据

2016-05-09 20:27:11 2367

转载 hadoop 常用配置

core-site.xml   namevalue Description  fs.default.namehdfs://hadoopmaster:9000定义HadoopMaster的URI和端口 fs.checkpoint.dir/opt/data/hadoop1/hdfs/

2015-09-06 11:16:33 437

转载 MySQL单表百万数据记录分页性能优化

转自:http://www.cnblogs.com/lyroge/p/3837886.html背景:自己的一个网站,由于单表的数据记录高达了一百万条,造成数据访问很慢,Google分析的后台经常报告超时,尤其是页码大的页面更是慢的不行。测试环境:先让我们熟悉下基本的sql语句,来查看下我们将要测试表的基本信息use infomation_sc

2015-09-01 11:40:41 406

转载 Hbase Filter

Comparison Filters  比较过滤器这一类Filter派生于CompareFilter ,其构造函数如下:[java] view plaincopyCompareFilter(CompareOp,WritableByteArrayComparable valueComparator)  RowFilter

2015-04-14 16:42:54 608

转载 十大数据帮你玩转移动广告

自从Android平台横空出世的那天,就打上了开放和免费的标签,因此很多Android的开发者都不得不通过在APP中投放广告的方式来获得盈利,那么要真正弄明白自己的收入情况,玩转移动互联网广告,没有数据支撑是肯定不行的。实际上,开发者是可以利用第三方统计平台提供的各类数据统计参数来衡量移动广告收益的,关键是要明确一些基本的广告运营理念,一些关键数据维度必须要做到心中有数,才能对广告收益了然

2015-04-02 19:48:58 514

转载 hive自定义UDF、UDAF、UDTF及使用

Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Intege

2015-03-31 11:08:42 781

转载 hive一行数据中一列拆分成多行

lateral view用于和split、explode等UDTF一起使用的,能将一行数据拆分成多行数据,在此基础上可以对拆分的数据进行聚合,lateral view首先为原始表的每行调用UDTF,UDTF会把一行拆分成一行或者多行,lateral view在把结果组合,产生一个支持别名表的虚拟表。单个LATERAL VIEW:源表(table1)数据{A:string B:arr

2015-03-27 15:28:37 6821

转载 WordNet词网研究7——之JWS(Java Wordnet Similarity)语义相似度计算

转自:http://www.cnblogs.com/sl-shilong/archive/2013/01/23/2874094.htmlJWS——Java WordNet Similarity是由University Of Sussex的David Hope等开发的基于java与WordNet的语义相似度计算开源项目。其中实现了许多经典的语义相似度算法。是一款值得研究的语义相似

2015-03-26 15:59:51 1980

转载 WordNet词网研究6——之JWI(Java Wordnet Interface)WordNet Java接口

JWI (the MIT Java Wordnet Interface) is a Java library for interfacing with Wordnet. JWI supports access to Wordnet versions 1.6 through 3.0, among other related Wordnet extensions. Wordnet is a fre

2015-03-26 15:58:19 1660

转载 HBase shell基础和常用命令详解

HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable:一个结构化数据的分布式存储系统》。HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库

2015-03-20 15:18:35 602

转载 HBase api优化设计

1. 表的设计1.1 Pre-Creating Regions默认情况下,在创建HBase表的时候会自动创建一个region分区,当导入数据的时候,所有的HBase客户端都向这一个region写数据,直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions,这样当数据写入HBase时,会按照region分区情况,在集群内做数据的负载

2015-03-19 15:43:11 511

原创 运用mapreduce计算tf-idf

运用mapreduce计算文档中每个单词的tfidf值

2015-03-19 13:51:59 3065

原创 hadoop启动namenode失败异常,求解决方法,小弟不胜感激!!!

问题描述:前面集群都是正常,今天向hadoop-env.sh中添加hbase环境变量后,启动namenode就出现该错误!

2015-03-11 17:28:31 3589

转载 alternatives命令用法

alternatives命令用法alternatives是Linux下的一个功能强大的命令。只能在root权限下执行。如系统中有几个命令功能十分类似,却又不能随意删除,那么可以用 alternatives 来指定一个全局的设置。alternatives常用于同一个系统中安装同一软件的多个版本。比如为了开发需要,我需要安装JDK1.4.2,同时还需要JDK1.6.10,我怎么样才

2015-02-09 14:16:28 574

转载 linux组管理

首先了解一下*****************/etc/group文件当中每行的具体含义:eg:  sudo:x:27:jiangjian1:组用户名2:密码用x替代,真正的密码在/etc/gshadow3:用户组ID4:组成员列表*****************/etc/gshadow文件每行的具体含义root@j

2015-02-05 10:27:01 510

转载 文本特征提取方法研究

文本特征提取方法研究一、课题背景概述文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据

2015-01-08 11:18:57 1175

转载 linux文件合并,去重,分割

第一:两个文件的交集,并集前提条件:每个文件中不得有重复行1. 取出两个文件的并集(重复的行只保留一份)2. 取出两个文件的交集(只留下同时存在于两个文件中的文件)3. 删除交集,留下其他的行1. cat file1 file2 | sort | uniq > file32. cat file1 file2 | sort | uniq -d > file33.

2014-12-23 12:13:41 634

转载 http与https的区别

在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式,用的端口也不一样,前者是80,后者是443。HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议 要比http协议安全H

2014-11-13 16:40:57 494

转载 机器学习最佳入门学习资料汇总

这篇文章的确很难写,因为我希望它真正地对初学者有帮助。面前放着一张空白的纸,我坐下来问自己一个难题:面对一个对机器学习领域完全陌生的初学者,我该推荐哪些最适合的库,教程,论文及书籍帮助他们入门?资源的取舍很让人纠结,我不得不努力从一个机器学习的程序员和初学者的角度去思考哪些资源才是最适合他们的。我为每种类型的资源选出了其中最佳的学习资料。如果你是一个真正的初学者,并且有兴趣开始

2014-11-03 11:58:49 671

转载 中文分词技术

一、       为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。二、 

2014-10-27 11:46:28 930

转载 mongodb命令大全

成功启动MongoDB后,再打开一个命令行窗口输入mongo,就可以进行数据库的一些操作。输入help可以看到基本操作命令:show dbs:显示数据库列表 show collections:显示当前数据库中的集合(类似关系数据库中的表) show users:显示用户use :切换当前数据库,这和MS-SQL里面的意思一样 db.help():显示数据库操作命令,里面有很

2014-10-24 11:03:07 657

转载 线性探测法构造hash表

已知一组关键字为(39,49,54,38,44,28,68,12,06,77),用除余法构造散列函数,用线性探查法解决冲突构造这组关键字的散列表。  解答:为了减少冲突,通常令装填因子α     由除余法的散列函数计算出的上述关键字序列的散列地址为(0,10,2,12,5,2,3,12,6,12)。     前5个关键字插入时,其相应的地址均为开放地址,故将它们直接插入T[0],T[1

2014-10-17 09:52:42 887

原创 数据库中having 与where的区别

having in和where都是用来筛选的having是用来啥需啊

2014-10-17 09:11:03 948

转载 Hadoop学习资料、博客及网站汇总

转载hadoop笔记:http://ekaf.blog.163.com/blog/static/17710797020116269126649/点击打开链接Hadoop官方的中文文档http://hadoop.apache.org/common/docs/r0.18.2/cn/index.html Hadoop学习资料 -- 这里面总结了很多的东西,值得一一

2014-10-16 16:26:03 580

转载 基于hadoop 网络爬虫

一。用hadoop作网络爬虫的原因爬虫程序的海量计算特性要求必须要用分布式方式来实现。一般爬虫爬取的是整个互联网上的所有或部分数据,这个数据量一般是P byte级,至少也是T byte级,因此用分布式的方式来获取这是不二之选。在众多的分布式计算框架里hadoop绝对是个中翘楚,从hadoop的用户名单中可以看出hadoop的应用范围已经非常广泛,hadoop本身已经接近成熟。因此hadoo

2014-10-16 09:53:16 2946 4

转载 ZIP压缩算法详细分析及解压实例

最近自己实现了一个ZIP压缩数据的解压程序,觉得有必要把ZIP压缩格式进行一下详细总结,数据压缩是一门通信原理和计算机科学都会涉及到的学科,在通信原理中,一般称为信源编码,在计算机科学里,一般称为数据压缩,两者本质上没啥区别,在数学家看来,都是映射。一方面在进行通信的时候,有必要将待传输的数据进行压缩,以减少带宽需求;另一方面,计算机存储数据的时候,为了减少磁盘容量需求,也会将文件进行压缩,尽管现

2014-10-15 10:38:27 1152

转载 apache与tomcat的区别

Apache是一个web服务器环境程序,可以作为web服务器使用。不过只支持静态网页,如(asp,php,cgi,jsp)等动态网页的就显得无能为力。 引用如果要在Apache环境下运行jsp 的话就需要一个解释器来执行jsp网页,而这个jsp解释器就是Tomcat,  为什么还要JDK呢?因为jsp需要连接数据库的话,就要jdk来提供连接数据库的驱程,所以要运行jsp的web服务

2014-10-15 10:17:54 594

转载 System.exit(0)与System.exit(1)的区别

查看java.lang.System的源代码,我们可以找到System.exit(status)这个方法的说明,代码如下: /** * Terminates the currently running Java Virtual Machine. The * argument serves as a status code; by convention, a non

2014-10-15 09:08:48 582

原创 mongodb 简单操作

1、切换数据库:use 数据库名3、

2014-10-13 20:12:53 593

转载 MongoDB 安裝,主从配置

官方网站:http://www.mongodb.org/MongoDB 安裝,主从配置一 MongoDB 安装点击(此处)折叠或打开[root@zabbix_server src]# wget http://fastdl.mongodb.org/linux/mongodb-linux-x86_64-2.0.0.tgz[ro

2014-10-13 19:12:25 658

转载 hadoop-2.4.0完全分布式集群搭建

新版本日志系统预计存储在TB级别,并且需要统计分析一些数据(离线统计,非即时),所以选择廉价linux服务器搭建一个hadoop集群,1个namenode,1个resourcemanager(mapreduce新框架yarn,去掉了原来的 jobtracker和tasktracker,取而代之的是ResourceManager, ApplicationMaster 与 NodeManager)

2014-10-13 16:14:06 603

转载 hadoop 2.4.0 无法启动datanode

一、执行start-dfs.sh后,datenode没有启动  查看日志如下:  2014-06-18 20:34:59,622 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool (Datanode Uuid unassign

2014-10-13 16:07:31 620

转载 http协议详解

当今web程序的开发技术真是百家争鸣,ASP.NET, PHP, JSP,Perl, AJAX 等等。 无论Web技术在未来如何发展,理解Web程序之间通信的基本协议相当重要, 因为它让我们理解了Web应用程序的内部工作. 本文将对HTTP协议进行详细的实例讲解,内容较多,希望大家耐心看。也希望对大家的开发工作或者测试工作有所帮助。使用Fiddler工具非常方便地捕获HTTP Request和HT

2014-10-09 15:32:32 560

je-3.2.23jar

berkeley db工具包 je-3.2.23jar

2014-06-16

lucene4.7相关jar包

lucene4.7相关jar包 以及IKAnalyzer分词jar包

2014-06-12

berkeley db使用手册

berkeley db 使用手册

2014-04-25

自己动手写搜索引擎 第2章 光盘实例

自己动手写搜索引擎 第2章 光盘实例

2014-04-25

走进搜索引擎 第二章光盘代码

走进搜索引擎 第二章光盘代码

2014-04-16

Tomcat与eclipse配置步骤

Tomcat 与 eclipse配置步骤 更好的进行web开发

2014-04-06

PHP开发文档

PHP开发 帮助文档

2014-03-21

hadoop-eclipse-plugin-2.2.0.jar

hadoop与eclipse的连接插件,hadoop-eclipse-plugin-2.2.0.jar

2014-03-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除