- 博客(18)
- 资源 (53)
- 收藏
- 关注
原创 从hbase加载数据到hdfs
package example2; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoo...
2015-01-16 17:02:18 199
原创 从hadoop取出文件写入hbase表中
package example2;import java.io.IOException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.KeyValue;i...
2015-01-16 17:01:11 246
原创 hdfs Map\Reduce到haase
1. 上传数据到hdfs中2. 写Map\Reduce过程3. 输出结果到hbase中Tips:1. 因为map是从hdfs中取数据,因此没有太大变化;而reduce需要输出结果到hbase中,所以这里继承了 TableReduce<keyin,valuein,keyout>,这里没有valueout,但是规定TableReduce的 valueout必须是Pu...
2015-01-16 16:53:41 80
原创 Hbase通过 Mapreduce 写入数据到Mysql
<dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <...
2015-01-16 10:10:53 245
原创 canal使用配置详解
a. canal的原理是基于mysql binlog技术,所以这里一定需要开启mysql的binlog写入功能,并且配置binlog模式为row. [mysqld] log-bin=mysql-bin #添加这一行就ok binlog-format=ROW #选择row模式 server_id=1 #配置mysql replaction需要定义...
2015-01-15 10:42:23 4216
原创 Linux系统上安装MySQL 5.5prm,rpm依赖性检测失败解决
从MySQL官网上分别下载mysql服务器端于客户端包。 如: MySQL-server-5.5.15-1.linux2.6.x86_64.rpm和MySQL-client-5.5.15-1.linux2.6.x86_64.rpm 并放到/opt目录下2.检测系统是否安装MySQL (1)进入系统后,检测是否安装mysql. 如:检测是否安装M...
2015-01-14 19:03:35 1409
原创 ubuntu apt-get 卸载mysql,重启,MYSQL 安装及配置
一、卸载删除 mysql 1 sudo apt-get autoremove --purge mysql-server-5.02 sudo apt-get remove mysql-server3 sudo apt-get autoremove mysql-server4 sudo apt-get remove mysql-common (非常重要) 上面的其实有一些是多余的,建议还...
2015-01-14 09:31:32 430
原创 shell判断hdfs文件目录是否存在
hadoop有提供相应的脚本去验证文件目录是否存在的: -bash-3.2$ hadoop fs -help ... -test -[defsz] <path>: Answer various questions about <path>, with result via exit status. -d retu...
2015-01-08 14:33:53 846
原创 shell中执行hive语句
1.执行select查询$HIVE_HOME/bin/hive -e 'select a.col from tab1 a'$HIVE_HOME/bin/hive -e "use mydb;select a.col from tab1 a where a.dt='2015-01-07';" 2.加入配置变量的查询$HIVE_HOME/bin/hive -e 'se...
2015-01-08 14:13:46 998
原创 超越算法来看待个性化推荐
一提到个性化推荐,大家一般会想到协同过滤、文本相似等推荐算法,或是更高阶的模型推荐算法,百度的张栋说过,推荐40%取决于UI、30%取决于数据、20%取决于背景知识,虽然本人不是很认同这种比例,但推荐系统中,推荐算法起的作用起的作用是非常有限的。 就像任何数据挖掘应用一样,算法不是起决定作用的,背景知识、数据很重要。通过算法或数学模型来描述和解决问题,我觉得是工...
2015-01-08 11:21:50 173
原创 hive分区操作
必须在表定义时创建partition a、单分区建表语句:create table day_table (id int, content string) partitioned by (dt string);单分区表,按天分区,在表结构中存在id,content,dt三列。 以dt为文件夹区分 b、 双分区建表语句:create table day_hour...
2015-01-08 11:17:42 93
原创 storm java.io.IOException: No such file or directory
storm 报错出现如下错误: java.io.IOException: No such file or directory at java.io.UnixFileSystem.createFileExclusively(Native Method) at java.io.File.createNewFile(File.java:883) at com.future.util.r...
2015-01-07 13:39:18 1060
原创 hadoop 目录给某个用户授权
首先在hdfs上创建/flume目录:hadoop fs -mkdir /flume 给该目录授权给flume用户和组:hadoop fs -chown -R flume:flume /flume
2015-01-07 13:39:05 2749
原创 FlumeNG与Kafka整合
1,作为Producer的Flume端配置,其中是以netcat为source数据源,sink是kafka #agent section producer.sources = s producer.channels = c producer.sinks = r #source section #producer.sources.s...
2015-01-06 17:45:30 173
原创 Flume监听文件目录sink至hdfs按照每天切割
采用的channels为file,sink为hdfs,此处往hdfs写的策略是当时间达到3600s或者文件大小达到128M。可以自己调整 agent1.sources = source1agent1.sinks = sink1agent1.channels = channel1# Describe/configure spooldir source1#a...
2015-01-06 17:24:10 905
原创 windows 2003 32位系统 能支持的最大内存数
打开 Boot.ini 文件,然后将 /PAE 参数添加到 boot.ini中,如以下所示: multi(0)disk(0)rdisk(0)partition(2)\%systemroot%="Windows Server 2003, Datacenter Edition" /PAE 如果CPU、主板、操作系统都支持并启用PAE(物理地址扩展),那么此时的物理内存地...
2015-01-06 16:02:46 466
原创 Hive读取Flume正在写入的HDFS
Hive的表创建为外部分区表,例如: USE mydb;CREATE EXTERNAL TABLE mytable( c1 String, c2 INT, c3 INT, create_time String)PARTITIONED BY (dt STRING)ROW FORMAT DELIMITED FIELDS TERMINATE...
2015-01-06 15:48:35 150
原创 flume-ng avro方式传输数据配置 flume-ng多节点实例
tail-to-avroagent1.sources = source1agent1.sinks = sink1agent1.channels = channel1# Describe/configure spooldir source1#agent1.sources.source1.type = spooldir#agent1.sources.source1...
2015-01-06 10:49:23 314
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人