自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(74)
  • 收藏
  • 关注

原创 Nutch 是一个开源Java 实现的搜索引擎

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。  Nutch的架构,采用了非常灵活的插件模式,大部分的核心功能,都可以通过组装插件的方式的来完成。如果想熟悉具体的nutch插件运行的机制,可以参考下nutch的官方wiki,今天散仙,主要来介绍下,怎么在nutch里,添加我们自己的插件。 1,下载nutch编...

2016-10-31 14:15:36 328

原创 辆缉查布控方法

一种套牌车辆缉查布控方法 CN 104103173 A摘要一种套牌车辆缉查布控方法,包括以下步骤:1)数据提取;2)行程时间下界计算;3)采用车牌号码快速hash算法识别车辆;4)套牌车嫌疑度计算:当产生Hash编码相同且车牌号相同的数据,判断是否为套牌嫌疑车,步骤如下:时间可疑度计算,汇总可疑度计算,5)最佳布控点选择:对车辆套牌可疑度进行排序得到可疑套牌车辆表,当可疑度...

2016-10-31 12:51:59 1937

原创 Nutch是一个优秀的开源的数据爬取框架

Nutch是一个优秀的开源的数据爬取框架,我们只需要简单的配置,就可以完成数据爬取,当然,Nutch里面也提供了很灵活的的插件机制,我们随时都可以对它进行二次开发,以满足我们的需求,本篇散仙,先来介绍下,如何在eclipse里面以local模式调试nutch,只有在eclipse里面把它弄清楚了,那么,我们学习起来,才会更加容易,因为,目前大多数人,使用nutch,都是基于命令行的操作,虽然很...

2016-10-31 12:49:04 784

原创 Linux主目录下都有什么文件夹

根目录只有一个,那就是/,主目录是当前用户的HOME目录,添加用户的时候指定的。一般用户缺省的HOME目录是/home/xxx (xxx是用户名),root的缺省HOME目录是/root根目录文件下内容:/bin:放置执行文件的目录,但毕竟特殊,其下放置的是在单用户维护模式下还能被操作的命令。主要有cat、chmod、date、 mv、mkdir、cp、bash等常用命令。 /b...

2016-10-31 12:48:37 1067

原创 linux系统设置命令别名的方法

需要经常进入/var/www/site/mycitsm/这个目录,每次都得重复的输入这一长串路径进入该目录,显得麻烦而费时,有没有一种好的方式可以将“cd /var/www/site/mycitsm”这样一个命令取一个别名,每次只需输入该别名就可以进入该目录呢?很庆幸,Linux系统提供了一个有用的工具叫alias,可以让我们将一些需要频繁使用的但又过于冗长的命令设置一个别名,这样一来,以...

2016-10-31 12:48:17 194

原创 windows平台下,使用nutch,得需要cygwin工具作为其模拟linux的运行环境

1,在windows平台下,使用nutch,得需要cygwin工具作为其模拟linux的运行环境,cygwin在这里的安装就不多说了,可以到http://www.cygwin.com/下下载,直接点击setup.exe即可下载,然后就点下一步下一步安装就可以了。 2,安装完cygwin,确定配置好环境变量,可以输入cygcheck -c cygwin查看版本 [img][/img],正确之后 ...

2016-10-28 11:27:14 159

原创 1.2版本之后,Nutch专注的只是爬取数据

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。当然在百度百科上这种方法在Nutch1.2之后,已经不再适合这样描述Nutch了,因为在1.2版本之后,Nutch专注的只是爬取数据,而全文检索的部分彻底的交给Lucene和Solr,ES来做了,当然因为他们都是近亲关系,所以Nutch抓取完后的数据,非常easy的就能生成全...

2016-10-28 11:24:44 240

原创 Cygwin是一款优秀的软件

Cygwin是一款优秀的软件,因其能在windows上模拟Linux环境,从而给我们测试某些开发程序带来极大的方便,省去了安装虚拟机的琐碎事情,也大大的节约了计算机内存和CPU的开销,所以,我们有必要了解一下它,如果是用Linux开发的道友们,也可以参考下。 笔者,曾经在windows上装过Cygwin,有安装成功,也有安装失败,在这里总结一下经验,希望可以对各位用得到的道友有所帮助。 Cyg...

2016-10-28 11:24:24 297

原创 Linux查看日志命令

1、cat命令: 功能:1)显示整个文件。 示例: $ cat fileName 2)把文件串连接后传到基本输出,如将几个文件合并为一个文件或输出到屏幕。 示例: $ cat file1 file2 > file 说明:把档案串连接后传...

2016-10-28 11:23:27 201

原创 hadoop或者hbase集群做停止操作

有时候,我们对运行几天或者几个月的hadoop或者hbase集群做停止操作,会发现,停止命令不管用了,为什么呢? 因为基于java开发的程序,想要停止程序,必须通过进程pid来确定,而hadoop和hbase默认的情况下,会把pid文件存储在Linux上的/tmp目录的某个目录下,进程名命令规则一般是  框架名-用户名-角色名.pid,而默认情况下,linux的tmp里面的东西,一天会删除一次...

2016-10-27 18:57:33 253

原创 Configuration类

先简单说下业务:有一个单独的模块,可以在远程下载Hadoop上的索引,然后合并压缩,最后推送到solr服务器上 原来使用的是Ant打包,外部的jar是在执行主体的jar时cp进环境变量的,所以没有出现今天要说的这个问题,伪代码如下: 先把所有外部的jar的路径,拼接好一个字符串path,然后将path传入下面执行的代码 java -cp  path  com.xxx.xxx.Test 现在要统...

2016-10-27 18:39:56 148

原创 Cloudera(CDH)的hadoop和Hortonworks(HDP)的的hadoop编译

版本使用范围,大致 与Apache Hadoop编译步骤一致大同小异,因为CDH的Hadoop的本来就是从社区版迁过来的,所以,这篇文章同样适合所有的以Apache Hadoop为原型的其他商业版本的hadoop编译,例如,Cloudera(CDH)的hadoop和Hortonworks(HDP)的的hadoop编译,下面开工: 1,环境准备(Cenots6.x,其他的大同小异) (1)yum...

2016-10-27 14:51:28 732

原创 使用CDH的hadoop里面有对应的组件Pig

1,使用CDH的hadoop里面有对应的组件Pig,但版本较低,所以放弃使用了,直接下载 Apache Pig0.15最新的版本(支持Tez,比Hive更容易集成) 下载地址:http://archive.apache.org/dist/pig/pig-0.15.0/pig-0.15.0.tar.gz 直接下载二进制包即可 2,配置Pig的环境变量如下: #Pig export PIG_HOM...

2016-10-27 14:48:41 505

原创 5个JVM命令行标志

本文是Neward & Associates的总裁Ted Neward为developerworks独家撰稿“你不知道5个……”系列中的一篇,JVM是多数开发人员视为理所当然的Java功能和性能背后的重负荷机器。然而,我们很少有人能理解JVM是如何进行工作的—像任务分配和垃圾收集、转动线程、打开和关闭文件、中断和/或JIT编译Java字节码,等等。不熟悉JVM将不仅会影响应用程序性能,而且...

2016-10-27 10:38:20 90

原创 Apache Oozie是一个用来管理Hadoop任务的工作流调度系统

(1)Apache Oozie是什么? Oozie在英语中的释义指的是:驯象人,驭象者(多指缅甸那边的俗称),这个比喻相对与它的功能来说,还是很恰当的。 Apache Oozie是一个用来管理Hadoop任务的工作流调度系统,是基于有向无环图的模型(DAG)。Oozie支持大多数的Hadoop任务的组合,常见的有Java MapReduce,Streaming map-reduce,Pig,H...

2016-10-26 10:32:47 344

原创 把项目打成jar包,提交执行

除了使用Hive,Pig来执行一个MapReduce任务,不需要专门的把项目打成jar包,提交执行,或者定时执行,因为Hive,Pig这些开源框架已经,帮我们自动打包上传了。 而有些时候,我们自己手写了一个MapReduce的任务,然后这个任务里面依赖了其他的第三方包,比如说是Lucene的,或者是Solr,ElasticSearch的,那么打包的时候就需要将这些依赖的jar包也一起的打包进去...

2016-10-26 10:31:53 312

原创 hue的架构图

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据...

2016-10-26 10:30:04 1736

原创 Hadoop2.2内存参数模板

配置选项 默认值 mapreduce.map.java.opts -Xmx512m mapreduce.reduce.java.opts -Xmx768m mapreduce.map.memory.mb 768 mapreduce.reduce.memory.mb 1024 yarn.app.mapreduce.am.resource.mb 1024 yarn.scheduler.minimu...

2016-10-26 10:29:25 69

原创 PV、UV、IP的区别

PV(访问量):即Page View, 即页面浏览量或点击量,在一定统计周期内用户每次刷新网页一次即被计算一次。 UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。IP(独立IP):即Internet Protocol,指独立IP数。00:00-24:00内相同IP地址之被计算一次。  网站推广需要一...

2016-10-26 10:24:16 225

原创 在hadoop的编程中输入输出参数路径的设定

在hadoop的编程中,如果你是手写MapReduce来处理一些数据,那么就避免不了输入输出参数路径的设定,hadoop里文件基类FileInputFormat提供了如下几种api来制定: 如上图,里面有 (1)addInputPath(),每次添加一个输入路径Path (2)addInputPaths, 将多个路径以逗号分割的字符串,作为入参,支持多个路径 (3)setInputPath ...

2016-10-25 13:50:41 1455

原创 两种hadoop集群(CDH的和Apache的))在使用过程中遇到

在Win7上的eclipse中使用Apache Hadoop2.2.0对接CDH5.3的Hadoop2.5调试时,上传到svn上,这次运行的地方是正宗的Apache社区版本Hadoop2.2的集群上(公司有两种hadoop集群(CDH的和Apache的))在使用过程中遇到一下几个问题,特记于此:问题清单:修真门槛障碍描述1           手写MapReduce...

2016-10-25 11:14:22 291

原创 处理多个类似表的txt数据

要处理多个类似表的txt数据,当然只有值,列名什么的全部在xml里配置了,然后加工这些每个表的每一行数据,生成特定的格式基于ASCII码1和ASCII码2作为分隔符的一行数据,ASCII2作为字段名和字段值的分隔符,ASCII1作为字段和字段之间的分隔符,每解析一个txt文件时,都要获取文件名,然后与xml中的schema信息映射并找到对应位置的值,它的列名,前提是,这些的txt的内容位置,是...

2016-10-25 10:14:26 118

原创 在eclipse中远程连接并读取数据

如何在eclipse中远程连接并读取数据,在网上搜的代码,大部分说的都比较复杂,其实如果只想连接HDFS读取一些数据话,这个是非常简单的,如果还要在Eclipse上远程提交MapReduce作业,这个就比较麻烦了,需要改动几处hadoop的源码才可以,所以建议初学者,还是在eclipse中,写好MR的类,然后打包成一个jar包上传linux并执行。 下面进入正题,在eclipse上连接hado...

2016-10-25 10:14:04 264

原创 去连接Linux系统上的HDFS

在Myeclipse构建的Java的Web项目里使用hadoop2.5的jar包,去连接Linux系统上的HDFS,做一个数据展示的工程,发生了一个莫名其妙的异常,信息如下:Java代码  Exception in thread "main" java.lang.NoSuchMethodError: com.google.common.collect.MapMaker....

2016-10-25 10:10:40 668

原创 MapReduce作业

MapReduce作业,目的是读数据库里面多个表的数据,然后在JAVA中根据具体的业务情况做过滤,并把符合数据的结果写入到HDFS上,在Eclipse里面提交作业进行调试的时候,发现在Reduce阶段,总是抛出Java heap space的异常,这异常明显,就是堆内存溢出造成的,然后散仙仔细看了下业务块的代码,在Reduce里读数据库的时候,有几个表的返回数据量比较大约有50万左右,因为具体...

2016-10-24 19:04:18 217

原创 在执行bin/hadoop checknative 命令时

刚装的hadoop2.2的集群,在执行bin/hadoop checknative 命令时,出现如下警告: bizip2的的本地压缩支持无效,整个编译过程,并没有出现任何错误,或异常,而且去cenots下的lib64位目录下,查看libbz2的so文件,发现也正常Java代码  [root@ph2 hadoop-2.2.0]# ll /lib64/libb*  lr...

2016-10-24 19:01:31 2015

原创 用过eclipse直接向hadoop提交MR作业

用过eclipse直接向hadoop提交MR作业,也提交成功过,这次换了集群环境,提交作业时发现几个异常,特此整理一下,以防后面再出现类似问题。 主要的问题的有2个: 第一个问题,在win7上的eclipse向hadoop提交作业时,没有权限,异常信息如下: Java代码  Caused by: org.apache.hadoop.ipc.RemoteException...

2016-10-24 18:51:25 138

原创 namenode的log时,散仙发现有如下的警告信息

刚装完的hadoop集群,在查看namenode的log时,发现有如下的警告信息:Java代码  2014-10-30 16:49:18,340 INFO org.apache.hadoop.hdfs.StateChange: STATE* Leaving safe mode after 2 secs  2014-10-30 16:49:18,340 INFO or...

2016-10-24 18:51:09 306

原创 跳板机SecureCRT

跳板机SecureCRT是一款用于连接运行包括Windows、UNIX和VMS的理想工具。通过使用内含的VCP命令行程序可以进行加密文件的传输。有流行CRTTelnet客户机的所有特点,包括:自动注册、对不同主机保持不同的特性、打印功能、颜色设置、可变屏幕尺寸、用户定义的键位图和优良的VT100,VT102,VT220和ANSI竞争.能从命令行中运行或从浏览器中运行.其它特点包括文本手稿、易于...

2016-10-24 16:22:54 206

原创 本次装的hadoop版本是hadoop1.2的版本

要在沙箱的环境装一个hadoop的集群,用来建索引所需,装hadoop已经没啥难的了,后面,会把重要的配置信息,贴出来,本次装的hadoop版本是hadoop1.2的版本,如果不知道怎么装的,可以参考这篇文章,安装的具体步骤,散仙在这里不在重述,重点在于hadoop-nd,hadoop-dd,tmp目录的配置,下面是配置文件的示例: core-site.xml的配置:Java代码 ...

2016-10-20 15:01:56 116

原创 自己搭建一套hadoop的运行环境

对于使用hadoop进行开发的朋友们,可能要自己搭建一套hadoop的运行环境,如果不是经常变动的还好,如果,经常搭建而且还是多台机器,那么我们一个个的安装,就显得有点捉襟见肘了,这也是这个脚本诞生的目的,主要帮助我们在快速搭建hadoop集群,以及安装底层的配置依赖环境如JDK,Maven,Ant等,在安装hadoop前,还有一些关于linux基础的工作需要做,包括SSH无密码登陆和批量用户...

2016-10-20 15:01:40 345

原创 Win10系统ie浏览器打不开网页的2种解决方法

大家知道,Win10系统是IE浏览器与Edge浏览器并存的状态。而一些习惯了使用IE浏览器的网友,在体验了Edge浏览器之后,有时候还会使用IE浏览器浏览器,不过,就会遇到只有Edge浏览器能够正常上网,但IE浏览器却打不开网页,或者上不了网,也尝试着下载其他浏览器,都被提示:无法连接网络或无法加载页面的问题。遇到Win10系统ie浏览器打不开的状况,一起来看看这2种解决方法。  方法一:...

2016-10-20 14:51:46 3373

原创 maven打jar包

maven 打jar包 在eclipse中要使用jdk的不是jre打包如下一、导出到默认目录 targed/dependency  从Maven项目中导出项目依赖的jar包:进入工程pom.xml 所在的目录下,执行如下命令:  1、mvn dependency:copy-dependencies或在eclipse中,选择项目的pom.xml文件,点击右键菜单中的Run...

2016-10-20 14:51:37 85

原创 linux的清屏命令

在windows的DOS操作界面里面,清屏的命令是cls,那么在linux 里面的清屏命令是什么呢?下面笔者分享几种在linux下用过的清屏方法。1、clear命令、这个命令将会刷新屏幕,本质上只是让终端显示页向后翻了一页,如果向上滚动屏幕还可以看到之前的操作信息。2、Ctrl+l(小写的L)、这是一个清屏的快捷键,这个是笔者在工作中用得最多的一种清屏方式,清屏效果同clear命令一样...

2016-10-20 14:51:25 5493

原创 gp性能管理

1.gp数据库的性能由一组segment服务中最慢的segment决定 2.gp数据库暂时不支持触发器 3.Greenplum数据库能够很好的运行在传统的UNIX文件系统上,比如BSD/UFS/FFS文件系统上,很多操作系统支持,在linux操作系统上,XFS是被推荐的,在solaris操作系统上,ZFS是被推荐的。 4.gp数据库概述: (1)灵活的可扩展性:...

2016-10-19 16:45:37 805

原创 Greenplum性能调优

以目前的使用体验的话,Greenplum(以下简称GP)的实时性确实比较高,从存储层到计算层,数据吞吐效率比类Hadoop生态圈的sql工具要好得多。伴随性能的提升,同时加深的是gp对硬件的要求。 就目前的GP集群的硬件配置情况来说: 5台22线程,64G内存,2T硬盘,千兆网卡机器(整体情况是110线程,320GB内存,disk ...

2016-10-19 16:45:29 1759

原创 pgadmin

它能在各种平台的Windows,Linux,FreeBSD,Mac和Solaris服务器上使用。特性包括:任意 SQL 语句。可用于数据库,表,索引,序列,视图,触发器, 函数和语言的浏览器和'构造器'。用户,组和权限配置对话框。带有升级脚本生成功能的版本跟踪。Microsoft MSysConf 表的配置。数据输入和输出向导。数据库的CRUD操作。数据库迁...

2016-10-19 16:42:52 148

原创 GROUP BY与COUNT用法详解

对某个表进行count  排序 显示字段 在group by 显示的字段  不显示的太多字段 不然有重复的聚合函数    在介绍GROUP BY 和 HAVING 子句前,我们必需先讲讲sql语言中一种特殊的函数:聚合函数, 例如SUM, COUNT, MAX, AVG等。这些函数和其它函数的根本区别就是它们一般作用在多条记录上。SELECT SUM(population) ...

2016-10-19 16:42:05 1855

原创 JAVA IDE IntelliJ IDEA使用简介(一)—之界面元素

打开IDEA,(当第一次打开的时候出现的是一个欢迎页面,随便创建一个project来进入到IDEA的主界面),主界面显示如下: 主界面由6个主要区域组成(图中红色数字标注的) 1.菜单和工具栏 2.导航条:编辑文件时帮助定位和导航项目中的文件 3.状态栏:显示当前项目,IDEA本身的状态,还有别的一些状态相关的一些信息 4.编辑器 5.工具窗口:辅助类窗口。IDEA提供了各式各样的辅助窗口来帮助...

2016-10-19 12:17:37 427

原创 在Win上提交hadoop集群的作业

一直以来,都以为,想在Win上提交hadoop集群的作业,必须得在eclipse上安装hadoop-eclipse-plugin插件才可以提交,但最近与同事交流,发现其实,不一定必须安装hadoop的eclipse插件,才能提交。今天试了一把,发现果然可以不用安装插件也可以正确提交作业到集群上,故在此总结一下。 既然,无须安装hadoop的eclipse插件,就能提交hadoop作业,那为毛,...

2016-10-18 10:53:43 145

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除