自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 如何设置hive与hbase同步

hive和hbase同步 https://cwiki.apache.org/confluence/display/Hive/HBaseIntegration 1、把hive-hbase-handler-1.2.1.jar  cp到hbase/lib 下 同时把hbase中的所有的jar,cp...

2015-08-30 14:03:28

阅读数 1052

评论数 1

原创 广告有效性原型

评价指标:点击率,转换率 传统广告策略:

2015-08-29 18:54:05

阅读数 471

评论数 0

原创 计算广告学介绍

什么是广告? 广告是由确定的出资人通过各种媒介进行有关产品(产品,服务,和观点)的,通常是有偿的,有组织的,综合的,劝服性的非人员的信息传播活动 广告的主体? 出资人即广告主,媒介(medium),受众 广告的本质功能? 是借助某种有广泛受众的媒体力量,完成较低成本的用户接触(reach) 广告的...

2015-08-29 17:24:35

阅读数 508

评论数 0

转载 linux常用命令

系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdpar...

2015-08-29 16:32:48

阅读数 167

评论数 0

转载 github提交可能遇到的问题

Git Push(向远程Github提交本地代码) $ git push git@github.com:hepusheng/linux-2.6.11-study-note.git master // 把本地仓库提交到远程仓库的master分支中 $ git remote add ori...

2015-08-29 16:08:24

阅读数 983

评论数 0

转载 Eclipse配置GitHub代码库(以Windows7为例)

1.安装Git     首先安装git。这里只讲Windows环境下安装Git方法。     从Git下载git的Windows安装文件,一路Next到选择安装组件这一步:     选上Git Bash Here这一项,这样就有命令行可以用了。因为后面基本上不会用到Git自己的G...

2015-08-29 16:02:29

阅读数 346

评论数 0

原创 MapReduce实现推荐算法(同现矩阵*评分矩阵=推荐结果)

该讲主要是基于ItemCF的物品推荐。 1,常用的两大协同过滤算法。 a,基于物品的协同过滤算法 基于item的协同过滤,通过用户对不同item的评分来评测item之间的相似性,基于item之间的相似性做出推荐。简单来讲就是:给用户推荐和他之前喜欢的物品相似的物品。 b,基于用户的...

2015-08-29 14:54:03

阅读数 2661

评论数 0

转载 eclipse里面使用github插件

1,检查Eclipse中是否已安装Git插件,菜单栏Help -> About Eclipse,查看是否有Git插件的图标。 Eclipse关联GitHub实现版本控制 2 现在的Eclipse下载后一般都提供Git插件了,若是没有Git插件,可以再eclipse 的market里面搜...

2015-08-29 12:39:25

阅读数 745

评论数 0

原创 Hbase优化

1,预分区。因为第一次建表的时候会自动创建一个region分区.如果再倒入数据的话,因为一开始没有数据,不会split切分,这样会对单个region server造成比较大的io开销,所以需要预分区。预分区可以根据热点范围的rowkey来制定分区策略。 2,通过rowkey检索数据的时候,需要制...

2015-08-25 19:20:19

阅读数 490

评论数 0

原创 mapreduce读取hbase中表的数据,直接打印或者回传数据到hbase数据库表

package com.syyz.zjs; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfiguration; i...

2015-08-25 18:58:07

阅读数 816

评论数 0

转载 HBase表设计原则整理

1、列簇的设计  列簇尽量少,最好不超过3个。因为每个列簇是存在一个独立的HFile里的,flush和compaction操作都是针对一个Region进行的,当一个列簇的数据很多需要flush的时候,其它列簇即使数据很少也需要flush,这样就产生的大量不必要的io操作。在多列簇的情况下,注...

2015-08-24 16:03:55

阅读数 634

评论数 0

转载 详细讲解Hadoop中的一个简单数据库HBase

HBase是 Hadoop中的一个简单数据库。它与Google的Bigtable特别相似,但也存在许多的不同之处。 数据模型 HBase数据库使用了和 Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字,和任意数目的列。表格是稀疏的,所以...

2015-08-24 12:47:16

阅读数 373

评论数 0

转载 Java集合类: Set、List、Map、Queue使用场景梳理

目录 1. Java集合类基本概念 2. Java集合类架构层次关系 3. Java集合类的应用场景代码   1. Java集合类基本概念 在编程中,常常需要集中存放多个数据。从传统意义上讲,数组是我们的一个很好的选择,前提是我们事先已经明确知道我们将要保存的对象的数量...

2015-08-23 14:58:12

阅读数 419

评论数 0

转载 hive优化

优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。   长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比...

2015-08-23 13:59:03

阅读数 177

评论数 0

转载 深入浅出数据仓库中SQL性能优化之Hive篇

一个Hive查询生成多个Map Reduce Job,一个Map Reduce Job又有Map,Reduce,Spill,Shuffle,Sort等多个阶段,所以针对Hive查询的优化可以大致分为针对MR中单个步骤的优化(其中又会有细分),针对MR全局的优化,和针对整个查询(多MR Job)的优...

2015-08-23 13:54:10

阅读数 187

评论数 0

转载 sql优化

1.查询的模糊匹配 尽量避免在一个复杂查询里面使用 LIKE '%parm1%'—— 红色标识位置的百分号会导致相关列的索引无法使用,最好不要用. 解决办法: 其实只需要对该脚本略做改进,查询速度便会提高近百倍。改进方法如下: a、修改前台程序——把查询...

2015-08-23 13:37:37

阅读数 203

评论数 0

转载 Hive SQL执行计划深度解析

阅读目录 1.1 Join的实现原理1.2 Group By的实现原理1.3 Distinct的实现原理2.1 Phase1 SQL词法,语法解析2.2 Phase2 SQL基本组成单元QueryBlock2.3 Phase3 逻辑操作符Operator2.4 Phase4 逻辑层优化器2....

2015-08-21 15:09:46

阅读数 481

评论数 0

原创 mapreduce查询mysql表中记录数

package com.zjs.mr2; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.ap...

2015-08-20 21:02:30

阅读数 323

评论数 0

原创 Mapreducer天气排序,分区,分组,排序

package com.zjs.mr2; import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date; import org.ap...

2015-08-20 16:48:53

阅读数 1028

评论数 0

原创 MapReducer实现单词计算

package com.zjs.mr; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable; import org.apache.hado...

2015-08-20 13:47:50

阅读数 414

评论数 0

原创 MapReduce 查询mysql表中的数据,打印记录数,并转储回mysql表

package com.laoxiao.mr02; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import java.sql.PreparedStatement; impor...

2015-08-19 20:35:02

阅读数 394

评论数 0

转载 Hadoop 调试第一个MapReduce程序过程详细记录总结

开发环境搭建参考     Hadoop 在Windows7操作系统下使用Eclipse来搭建Hadoop开发环境>: http://www.linuxidc.com/Linux/2014-12/111061.htm 1,程序代码如下: ​package wc; import ja...

2015-08-17 19:36:19

阅读数 534

评论数 0

原创 替换centos的yum源

1,可以从阿里的镜像站点里面选中自己的linux版本:http://mirrors.aliyun.com/ 2,如果是centos可以参看以下方法: 1、备份 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/Ce...

2015-08-16 10:56:39

阅读数 324

评论数 0

原创 ConcurrentHashMap 初认识

1,ConcurrentHashMap是线程安全且高效的HashMap 2,为什么要使用ConcurrentHashMap? 因为在多线程环境下,使用HashMap进行put操作会引起死循环。HashTable使用synchronized来保证线程安全。但是在线程竞争激烈的情况下。HashTa...

2015-08-15 16:44:45

阅读数 287

评论数 0

原创 Unable to load native-hadoop library for your platform... using builtin-java classes where applicab

出现上述问题主要是环境变量没设置好,在~/.bash_profile或者/etc/profile中加入以下语句就没问题了。   #vi /etc/profile或者vi ~/.bash_profile     export HADOOP_COMMON_LIB_NATIVE_DIR=$HAD...

2015-08-14 13:03:43

阅读数 316

评论数 0

提示
确定要删除当前文章?
取消 删除