- 博客(118)
- 收藏
- 关注
转载 Eclipse运行Hadoop程序时控制台无法打印进度信息解决办法
将Hadoop升级到了2.4.0,直接使用Eclipse的Hadoop插件新建了一个MapReduce Project,但是在Eclipse运行Hadoop程序时看不到进度信息,只输出如下内容:log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetri...
2015-11-26 17:43:00 372
转载 DataTables warning : Requested unknown parameter '1' from the data source for row 0 解决办法
今天在实现把Elasticsearch搜索出来的结果结合DataTables进行高亮显示的时候,出现了这个错误,解决办法是做如下改动:<script> $(document).ready(function() { $('#example').DataTable({ "bSort" : false ...
2015-09-01 16:44:00 241
转载 Hibernate向MySQL插入中文乱码问题
修改Hibernate的配置文件hibernate.cfg.xml即可。原来:<property name="connection.url"> jdbc:mysql://localhost:3306/excel</property>修改后:<property name="connection.url">...
2015-08-17 15:14:00 123
转载 Elasticsearch添加中文分词
这篇博客我记录在了http://segmentfault.com/a/1190000003101351转载于:https://www.cnblogs.com/Murcielago/p/4734912.html
2015-08-16 20:25:00 91
转载 Elasticsearch同步MySQL
这篇博客我记录在了:http://segmentfault.com/a/1190000003100540转载于:https://www.cnblogs.com/Murcielago/p/4734905.html
2015-08-16 20:21:00 131
转载 Elasticsearch Demo
索引一个文档,使用自己的IDhadoop@tinylcy:~$ curl -XPUT localhost:9200/website/blog/123 -d '> {> "title" : "My first blog entry",> "text" : "Just trying this out...",> "dat...
2015-08-15 16:13:00 77
转载 Scala继承中val变量的构造顺序
例子1:class A { val x1: String = "hello" val x2: String = "mom" println("A: x1=" + x1 + ",x2=" + x2)}class B extends A { override val x2: String = "dad" println("B: x1=" + ...
2015-08-02 15:58:00 110
转载 在IntelliJ中运行Spark Demo时遇到的问题及解决办法
这一阶段主要是在学习Scala,知乎上说推荐先学习一下Haskell再学习Scala,但我觉得不一定要曲线救国。不过在学习过程中遇到的困难的确不少,好歹Scala是公认的其特性的复杂程度是要超过C++的嘛:-)我学习Scala的主要动机是想研究Spark,尽管Python和Java等都可以用来开发Spark应用,但是Spark本身就是一个Scala项目,而且Spark也不能算是...
2015-07-27 20:18:00 1094
转载 Hadoop: No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory...
在eclipse中运行Hadoop程序时出现如下问题:log4j:WARN No appenders could be found for logger (org.apache.hadoop.metrics2.lib.MutableMetricsFactory).log4j:WARN Please initialize the log4j system properly....
2015-07-19 10:03:00 583
转载 Spark Standalone Mode
因为Spark与Hadoop是关联的,所以在安装Spark前应该根据已安装的Hadoop版本来选择待安装的Sqark版本,要不然就会报“Server IPC version X cannot communicate with client version Y”的错误。 我安装的Hadoop版本为Hadoop2.4.0(下载),选择的Spark版本为spark-1.2.0-bin-ha...
2015-07-18 20:45:00 125
转载 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform...解决办法
在执行Hadoop命令的时候会出现这样的警告:解决办法:在profile文件中添加:export JAVA_LIBRARY_PATH=${HADOOP_HOME}/lib/native这是在调用Hadoop里的库。具体可以参考www.cnblogs.com/gpcuster/archive/2011/02/17/1957042.html转载于:https://w...
2015-07-18 13:49:00 197
转载 利用POI读取Excel文件并写入MySQL
昨天需要将Excel中的内容读取至MySQL中,我利用POI来实现这一需求,POI可以从这里下载。同时,如果要操作Excel2007,必须还要加入xmlbeans-2.3.0.jar。这是我要读取的Excel表的内容:注意表中数据存在日期、空格。定义一个Project类:package readexcel;public class Projec...
2015-07-17 13:55:00 135
转载 Hadoop生产集群的监视——计数器
可以在Hadoop作业中插桩计数器来分析其整体运作。在程序中定义不同的计数器,分别累计特定事件的发生次数。对于来自同一个作业所有任务的相同计数器,Hadoop会自动对它们进行求和, 以反映整个作业的情况。这些计数器的数值会在JobTracker的Web用户界面中与Hadoop的内部计数器一起显示。 计数器的典型应用是用来跟踪不同的输入记录类型,特别是跟踪“坏”记录。例如,我们得...
2015-07-15 18:06:00 115
转载 推荐引擎数据导入导出模块的实现
毕设做到后半部分,需要实现将用户在一段时间(比如1天)内产生的新数据导入HDFS的功能,这样数据仓库中的数据才能和数据库中的数据同步,以及将新产生的推荐结果重新写回数据库,这样的话就与实际应用一致了在新建了一个PyDev项目后,需要如下操作(拣最主要的写):模块的环境变量:# -*- coding:UTF-8 -*-#!/usr/bin/python...
2015-04-26 14:55:00 147
转载 Tomcat7配置DataSource数据源
在用Mahout做推荐引擎,用到数据库连接池,在eclipse下,遇到配置问题,其实很简单,但花了不少时间,做个笔记配置连接池将以下内容保存(相应位置做相应修改)为context.xml(自己新建),放在web项目下的META-INF文件夹下:<?xml version="1.0" encoding="UTF-8"?><Context>...
2015-04-20 11:54:00 157
转载 MySQL ERROR : The used command is not allowed with this MySQL version 解决办法
目的:向MySql数据库导入.txt文件,通过load命令来实现输入如下命令,报错:修改命令,依旧报错:可能原因(from mysql reference manual): If LOAD DATA LOCALis disabled, either in the server or the client, a client that att...
2015-04-06 15:56:00 1041
转载 Linux批量删除指定后缀的文件
刚才遇到一个问题:从本地文件系统上传一个文件夹至HDFS作为Hadoop程序的输入数据,但是程序报错,原因是Ubuntu针对每个.txt文件生成了.txt~备份文件,所以我要把这些备份文件批量删除然后再上传进入文件夹所在目录,然后执行命令:hadoop@myUbuntu:/usr/local/hadoop/movieinput$ find . -name '*.t...
2015-04-01 11:42:00 769
转载 Hadoop 获取Input File的文件名
写Hadoop程序的时候在Mapper里遇到这个需求,上网查了下,做个记录:public static class MapClass extends MapReduceBase implements Mapper<Object, Text, IntWritable, Text> { @Override ...
2015-04-01 10:28:00 283
转载 Mahout的安装与配置
Mahout是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。下载Mahout,我下载的版本是Mahout0.9:mahout-distribut...
2015-03-29 16:28:00 161
转载 Ubuntu14.04安装mysql
验证原主机是否安装有mysql:要是运行sudo netstat -tap | grep mysql命令查看是否有Mysql的端口,什么结果都没有就对了运行sudo apt-get install mysql-server mysql-client来安装mysql:在安装的过程中会提示你输入Yes,然后会弹出root密码设置界面,这里可以先设置一个r...
2015-03-28 22:04:00 100
转载 Ubuntu14.04下tomcat的安装
我下载的tomcat版本是apache-tomcat-7.0.59.tar.gz ,解压在 /usr/local 下:给文件夹授权:重命名为tomcat7进入tomcat7下的bin文件夹,编辑文件catalina.sh添加内容如下:JAVA_HOME=/usr/lib/jvm/jdk1.7.0_75JAVA_...
2015-03-25 15:31:00 87
转载 Thinking in Java Chapter4 Exercise10 吸血鬼数字
吸血鬼数字是指位数为偶数的数字,可以由一对数字相乘而得到,而这对数字各包含乘积的一半位数的数字,其中从最初的数字中选取的数字可以任意排序。以两个0结尾的数字是不允许的,例如,下列数字都是吸血鬼数字:1260 = 21 * 601827 = 21 * 872187 = 27 * 81程序如下:import java.util.Arrays;...
2015-03-23 21:42:00 86
转载 Hadoop基于DistributedCache的复制联结
上一种方法让所有的数据在网络上重排,然后在许多情况下大部分数据又被丢弃了,如果我们在map阶段就去除不必要的数据,会更有效率。当较小的数据源可以装入mapper的内存时,可以通过将较小的数据源复制到所有的mapper,并在mapper阶段进行联结,以实现效率的极大提高。管理分布式缓存的类为DistributedCache,使用这个类有2个步骤:第一步:调用静态方法...
2015-03-23 16:04:00 148
转载 Hadoop reduce side join using Datajoin
我是参照《Hadoop in action》完成示例程序。如果是在eclipse下需要将 hadoop-datajoin-xxx.jar 导入工程的Library中。另外新的API已经不再使用mapper,reducer接口,而Datajoin中DataJoinMapperBase,DataJoinReducerBase都是实现前两个的接口,所以job.setMapperClas...
2015-03-23 10:02:00 175
转载 通过脚本使用Streaming遇到的问题及解决办法
《Hadoop 实战》中的“通过脚本使用Streaming”其中的一个示例:使用脚本来均匀采样一个按行组织的数据文件,在Ubuntu终端输入如下命令:结果如下:修改命令:输出文件如下:转载于:https://www.cnblogs.com/Murcielago/p/4344571.html...
2015-03-17 15:37:00 347
转载 lsr: Cannot access .: No such file or directory. 解决办法
今天运行了一段程序:分析专利引用数据集,从专利引用数据集中计算专利被引用的次数在专利局http://data.nber.org/patents/网站下载专利数据作为测试数据,是个251MB的.txt文件...具体原因至今不详,可能是因为我的运行环境是建立在虚拟机之上?在一次运行非正常退出后,输入命令hadoop fs -lsr出现如下结果:一开始以...
2015-03-11 19:58:00 6506
转载 Hadoop读取XML配置文件
原来我要实现的是最基本的将本地文件拷贝到HDFS上去,所以写了下面的程序:package com.lcy.hadoop.file;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path...
2015-03-11 14:43:00 362
转载 基于文件的数据结构:关于MapFile
MapFile是已经排过序的SequenceFile,它有索引,所以可以按键查找1.MapFile的写操作MapFile的写操作类似于SequenceFile的写操作。新建一个MapFile.Writer实例,然后调用append()方法顺序写入文件内容。如果不按顺序写入,就抛出一个IOException异常。键必须是WritableComparable类型的实例,值...
2015-03-10 19:01:00 138
转载 基于文件的数据结构:关于SequenceFile
纯文本不适合记录二进制类型的数据,在这种情况看下,Hadoop的SequenceFile类非常合适,为二进制键值对提供了一种持久的数据结构1.SequenceFile的写操作通过createWriter()静态方法可以创建SequenceFile对象,并返回SequenceFile.Writer实例该静态方法需要指定待写入的数据流(FSDataOutputStre...
2015-03-10 17:23:00 124
转载 Hadoop:用API来压缩从标准输入中读取的数据并将其写到标准输出
codec实现了一种压缩-解压缩算法,在Hadoop中,一个对CompressionCodec接口的实现代表一个codecCompressionCodec接口包含两个函数如果要对写入输出数据流的数据进行压缩,可用createOutputStream(OutputStream out)方法在底层的数据流中对需要以压缩格式写入的数据新建一个CompressionOutputSt...
2015-03-09 17:21:00 92
转载 Hadoop示例程序wordcount分析
wordcount作为Hadoop的示例程序,其思想很简洁,但也值得去理解尤其是作为Hadoop菜鸟的我wordcount程序如下:package com.lcy.hadoop.examples;import java.io.IOException;import java.util.StringTokenizer;import org...
2015-03-08 00:03:00 131
转载 显示Hadoop文件系统中的路径的文件信息
FileSystem的listStatus方法的功能:列出目录中的内容当传入的参数是一个文件时,它会转变成以数组的方式返回长度为1的FileStatus对象当传入的参数是一个目录时,返回0或多个FileStatus对象,表示此目录中包含的文件和目录如果指定一组路径,其执行结果相当于依次轮流传递每条路径并对其调用listStatus()方法,再将FileStatus对象数...
2015-03-07 10:36:00 471
转载 Linux文件与目录的权限(chown、chmod)
chown,即为change owner如下图:hadoop-1.2.1.tar.gz原来的拥有者为hadoop用户,现将其拥有者修改为root:========================================================================chmod,即为change mode...
2015-03-06 23:27:00 125
转载 通过FileSystem API读取数据
参照前面提到的通过Hadoop URL读取数据,有时根本不可能在应用中设置URLStreamHandlerFactory实例,在这种情况下,需要使用FileSystem API来打开一个文件的输入流FIleSystem是一个通用文件系统的API,所以第一步是检索我们需要的文件系统的实例,这里是HDFS,获取FileSystem实例有两种方法:public static Fil...
2015-03-06 15:50:00 222
转载 通过Hadoop URL读取数据
让Java程序能够识别Hadoop的hdfs URL方案需要一些额外的工作,采用的方法是通过FsUrlStreamHandlerFactory实例调用java.net.URL对象的setURLStreamHandlerFactory方法。每个Java虚拟机只能调用一次这个方法,因此通常在静态方法中调用。程序如下:package com.lcy.hadoop.file;...
2015-03-06 15:25:00 153
转载 Hadoop分析Tomcat日志Demo实现
Tomcat日志:127.0.0.1,-,-,[08/May/2014:13:42:40 +0800],GET / HTTP/1.1,200,11444127.0.0.1,-,-,[08/May/2014:13:42:42 +0800],GET /jygl/jaxrs/teachingManage/ClassBatchPlanService/getCurrentClass...
2015-03-05 17:37:00 132
转载 Ubuntu14.04下安装Eclipse
从官网下载Eclipse IDE for Java EE Developers的Linux版本eclipse-jee-luna-SR2-linux-gtk.tar.gz我把下载后的压缩包移动到了 /usr/local 下解压:$ tar -zxvfeclipse-jee-luna-SR2-linux-gtk.tar.gz解压出来是一个eclipse文件夹...
2015-03-05 11:16:00 97
转载 Linux命令——确保使用的命令是正确的
1.which命令当输入一个Linux命令时,Shell究竟执行的是哪一个目录下的同名命令,我们不得而知,可以使用which予以验证。2.whereis命令与which类似的命令,whereis用于检索与给定命令相关的文件。3.apropos命令借助于apropos命令,利用关键字检索命令。apropos将利用提供的关键字,检索所有的命令手册页中的...
2015-03-04 20:42:00 67
转载 HDFS文件操作(基本文件命令)
文件列表命令:如果你想看到所有的字目录,则可以使用Hadoop的lsr命令:在本地的文件系统创建一个名为example.txt的文本文件,用Hadoop的命令put将它从本地文件系统复制到HDFS上去:注意命令最后一个参数是一个句点(.)。这意味着我把文件放入了默认的工作目录,等价于 bin/hadoop fs -put examples.txt...
2015-03-04 16:28:00 132
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人