自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 资源 (6)
  • 问答 (1)
  • 收藏
  • 关注

转载 查找——图文翔解HashTree(哈希树)

在各种数据结构(线性表、树等)中,记录在结构中的相对位置是随机的。因此在机构中查找记录的时需要进行一系列和关键字的比较。这一类的查找方法建立在“比较”的基础上。查找的效率依赖于查找过程中所进行的比较次数。之前我们介绍的各种基于比较的树查找算法,这些查找算法的效率都将随着数据记录数的增长而下降。仅仅是有的比较慢(时间复杂度为O(n)),有的比较快(时间复杂度是O(logn))而已。这些查找算法的平均...

2018-06-13 20:17:20 252

转载 你确定你真的懂用户画像?

什么是用户画像?在互联网逐渐步入大数据时代后,不可避免的给企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于,消费者的一切行为在企业面前似乎都将是“可视化”的。随着大数据技术的深入研究与应用,企业的专注点日益聚焦于怎样利用大数据来为精准营销服务,进而深入挖掘潜在的商业价值。于是,“用户画像”的概念也就应运而生。用户画像(User Profile)作为大数据的根基,它完美地抽象出一个用户的信...

2018-03-15 18:43:34 820

转载 机器学习路线图

注:此篇博客为转载,尊重原创。原文链接地址为:http://blog.csdn.net/longxinchen_ml/article/details/50749614作者: 龙心尘 && 寒小阳 时间:2016年2月。 出处:http://blog.csdn.net/longxinchen_ml/article/details/50749614 http://blog.csdn.n...

2018-03-15 10:26:45 260

转载 用户画像的

早期的用户画像是通过对用户多方面信息的调研和了解,将多种信息分类聚合,产出几个有典型特征和气质的虚拟用户。用户画像用于辅助产品设计,评价需求是否有价值,别让产品偏离核心用户的需求;市场营销方面,可以用于方案制定,推广渠道选择,同时对运营人员也有一定的指导意义。此种的用户画像粒度比较粗,用虚拟的用户画像代表真实的用户。用户画像会用如下的文档描述。<img src="h

2017-12-28 16:55:11 946

转载 如何落地用户画像分析?

用户PERSONA的含义: P 代表基本性(Primary research)指该用户角色是否基于对真实用户的情景访谈E 代表移情性(Empathy)指用户角色中包含姓名、照片和产品相关的描述,该用户角色是否引起同理心。 R 代表真实性(Realistic)指对那些每天与顾客打交道的人来说,用户角色是否看起来像真实人物。 S 代表独特性(Singular)每个用户是否是独特的,彼此

2017-12-28 16:07:05 1440

转载 Logistic回归(LR)分类器

(一)认识Logistic回归(LR)分类器首先,Logistic回归虽然名字里带“回归”,但是它实际上是一种分类方法,主要用于两分类问题,利用Logistic函数(或称为Sigmoid函数),自变量取值范围为(-INF, INF),自变量的取值范围为(0,1),函数形式为:由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。因此最基本的

2017-12-13 19:01:21 992

转载 K近邻法(KNN)原理小结

转自 http://www.cnblogs.com/pinard/p/6061661.htmlK近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了,在我们平常的生活中也会不自主的应用。比如,我们判断一个人的人品,只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类,也可以做回归,这点和决策树算法相同。

2017-11-03 00:03:11 1769

原创 Elasticsearch Scripted Metric Aggregation 自定义聚合

1、首先创建所以:PUT test_date{  "settings":{      "number_of_shards":2,      "number_of_replicas":0  }}2、创建索引结构PUT test_date/tag_type/_mapping {    "tag_type": {        "dynamic

2017-07-03 17:39:53 4649 1

转载 Skew Join与Left Semi Join相关

Skew Join真实数据中数据倾斜是一定的, hadoop 中默认是使用hive.exec.reducers.bytes.per.reducer = 1000000000也就是每个节点的reduce 默认是处理1G大小的数据,如果你的join 操作也产生了数据倾斜,那么你可以在hive 中设定set hive.optimize.skewjoin = true; set hiv

2016-08-30 18:28:28 528

转载 并查集详解 (转)

这个文章是几年前水acm的时候转的, 当时也不知道作者是谁, 要是有人知道的话说一下吧并查集是我暑假从高手那里学到的一招,觉得真是太精妙的设计了。以前我无法解决的一类问题竟然可以用如此简单高效的方法搞定。不分享出来真是对不起party了。(party:我靠,关我嘛事啊?我跟你很熟么?)来看一个实例,杭电1232畅通工程首先在地图上给你若干个城镇,这些城镇都可

2016-07-19 14:28:10 236

转载 hbase 写数据,存数据,读数据的详细过程

Client写入 -> 存入MemStore,一直到MemStore满 -> Flush成一个StoreFile,直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile,同时进行版本合并和数据删除 -> 当StoreFiles Compact后,逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值后,触发Sp

2016-07-11 19:27:53 4233

转载 搭建(win7)eclipse远程操作(Linux上)hadoop2.6.0_出错集

问题1:在DFS Lcation 上不能多文件进行操作: 在hadoop上的每个节点上修改该文件       conf/mapred-site.xml         增加:                                       dfs.permissions                   false                  

2016-06-06 02:31:04 469

转载 hadoop单机/伪分布式安装---实用

以前安装过Hadoop几个版本的单机版,主要是为了研究Hadoop源代码,现在想更加深入Hadoop整个生态系统,选择安装Hadoop完全分布式,由于目前Hadoop最新版本为2.6,于是选择这个版本安装使用准备工作:1、笔记本4G内存 ,操作系统WIN7(纯屌丝配置)2、工具:VMware Workstation3、虚拟机:CentOS6.5(64位)共3台,一个

2016-06-05 22:52:36 288

原创 java -version 错误

在linux上安装jdk时 遇到如下问题。[root@localhost etc]# java -versionError: dl failure on line 864Error: failed /usr/local/jdk7/jre/lib/i386/client/libjvm.so, because /usr/local/jdk7/jre/lib/i386/client/li

2016-06-05 22:42:09 1320

转载 Hive 基础之:分区、桶、Sort Merge Bucket Join

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其实

2016-05-04 23:03:10 703

转载 SQL join中级篇--hive中 mapreduce join方法分析

1. 概述。本文主要介绍了mapreduce框架上如何实现两表JOIN。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduce side joinreduce side join是一种最简单的join方式,其主要思想如下:在map阶段,map函数同时读取两个文件File1和File2,为了区分两种来源的key/value数据

2016-05-04 21:49:36 738

转载 hive udtf的使用

原文:http://blog.linezing.com/2011/03/hive%E4%B8%ADudtf%E7%BC%96%E5%86%99%E5%92%8C%E4%BD%BF%E7%94%A81. UDTF介绍UDTF(User-Defined Table-Generating Functions)  用来解决 输入一行输出多行(On-to-many mapin

2016-04-24 20:02:52 1062

转载 HIVE中Join的专题---Join详解

Hive表连接的语法支持如下:Sql代码  join_table:      table_reference JOIN table_factor [join_condition]    | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition    | table_refere

2016-04-14 17:27:25 778

转载 hive join详解

Common Join最为普通的join策略,不受数据量的大小影响,也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成.首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个map output key 变成了table_name_tag_prefix + join_column_value

2016-04-14 17:20:12 404

原创 hbase表拷贝问题

再做hbase 0.94版本向0.98.6版本的表迁移的过程中遇到如下问题:多次测试发现 是0.98.6版本上的 jackson 版本为jackson-core-asl-1.8.8.jar  jackson-jaxrs-1.8.8.jar  jackson-mapper-asl-1.8.8.jar  jackson-xc-1.8.8.jar然而2.0 需要的

2016-04-12 18:33:25 657

转载 hbase 表数据迁移

1 CopyTable 工具用法:CopyTable is a utility that can copy part or of all of a table, either to the same cluster or another cluster. The target table must first exist. The usage is as follows:$ b

2016-04-12 18:23:21 1614

转载 解决方案:hbase数据迁移发生ERROR: Unknown table错误

以下是文章的原文:说明:网上众多千篇一律的版本都说要用到一个add_table.rb的文件,可是我的版本根本hbase下就不存在这个文件。1.把数据表test从hbase下拷出(hadoop dfs -get /hbase/test ./)2.文件放到新集群的系统上。3.文件拷入新的hadoop集群hbase下(hadoop dfs -put t

2016-04-01 10:38:22 2137

转载 Hbase集群间数据迁移方法总结(包括不通信集群)

问题导读:1.不同版本间集群是否可以迁移?2.distcp命令的作用是什么?3..MEAT表的作用是什么?4.相互不通信集群,数据该如何迁移?HBase迁移数据方案一(集群互联)花了一天的时间查资料做测试,略微的总结了一下hbase数据迁移的方法。一、需要在hbase集群停掉的情况下迁移步骤:(1)执行Hadoop distcp

2016-04-01 10:37:40 10284 1

转载 BloomFilter——大规模数据处理利器

BloomFilter——大规模数据处理利器   Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合,但是并不严格要求100%正确的场合。 一. 实例   为了说明Bloom Filter存在的重要意义,举一个实例:  假设要你写一个网络蜘蛛(web crawler

2016-03-01 15:17:19 916

转载 Elasticsearch入门基础----对于刚接触es的人员来说很棒

基础概念     Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。    接近实时(NRT)        Elasticsearch是一个接近实时的搜索平台。这意味着,从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟(通常是1秒)。           集群(cluster)        一个集群就是由一

2015-04-26 23:15:10 16832 1

转载 elasticsearch的一些基本概念

需要我们注意的是,这些概念理解只是解释其含义,不推荐强制翻译成中文。Index:这是ES存储数据的地方,类似于关系数据库的database。Document type:嗯,类似关系数据库的表,主要功能是将完全不同schema(这个概念以后会讲到,不急)的数据分开,一个index里面可以有若干个Document type。Document:好吧,这个类似关系数据库的一行,在同

2015-04-24 13:41:53 394

转载 rest接口 post与get提交的区别

urllibGETf=urllib.urlopen("http://m.cnblogs.com/")s=f.read()print s带参数params = urllib.urlencode({'id': 8, 'name': 'jack', 'age': 25})f = urllib.urlopen("http://localhost:18797/Mai

2015-04-23 18:41:05 889

转载 redis安装过程中的问题解决

今天装了个centos2.6.4 然后装jdk,完了redis2.6.4装redis2.6.4折腾了老半天,缺了很多东西,连gcc都没有无语中……废话不多说,直接上过程1、报错一  没用gcc安装过程    yum install cpp    yum install binutils    yum install glibc    yu

2015-04-15 16:12:46 1381

转载 hive的查询注意事项以及优化总结 .

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin Bon

2015-03-26 19:44:32 390

转载 map和reduce 个数的设定 (Hive优化)经典

一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input

2015-03-26 19:07:56 357

转载 DB2网址

http://www.cppblog.com/prayer/category/7986.html?Show=All

2015-03-12 10:18:09 457

转载 hive大数据倾斜总结

在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的

2015-03-04 10:32:26 341

转载 hbase 常用

进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)>whoami表的

2015-03-02 15:55:21 284

原创 linux shell常用命令

个人工作中经常用到shell脚本,处理一些繁琐的事情,不算高深仅用于日常工作,基本可以满足。一、shell 语法:1、if控制语句结构if [ ]; then   elif [ ]; thenelsefi比较数值类型-lt  -gt  >     如:if [ "$a" -gt "$b" ]-le  -ge  >=    如:if [ "

2015-02-28 14:46:45 567

转载 数据仓库建模与ETL的实践技巧

一、Data仓库的架构  Data仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将Data按特定的模式进行存储所建立起来的关系型Datcbase,它的Data基于OLTP源Systam。Data仓库中的Data是细节的、集成的、面向主题的,以OLAPSystam的分析需求为目的。  Data仓库的架构模型包括了星型架构与雪花型架构两种模式。星型架构的中间

2014-12-10 12:59:29 534

转载 在使用Kettle的集群排序中 Carte的设定

原文  http://www.cnblogs.com/inuyasha1027/p/kettle_carte.html本片文章主要是关于使用Kettle的UI界面:Spoon来实现基于集群的对数据库中的数据表数据进行排序的试验。以及在实验过程中所要开启的Carte服务的一些配置文件的设置,还有基于Windows cmd 的相关Carte命令。

2014-11-19 10:46:31 1786

linux 常用shell命令

个人日常工作中,常用shell命令总结,从简单到复杂,各种操作对于数据分析人员来说也有一定的帮助

2018-04-21

Hive编程指南[书签版].pdf

hive 入门学习,适用于需要系统性的了解hive的工作原理以及开发技巧的人群

2017-03-06

量子恒道 Storm入门

storm入门技术,详细的官网翻译文档,想要学习storm,从他开始吧

2013-12-25

report报表

这是报表用到的各个jar报,欢迎需要的人员下载 共享资源

2012-03-18

class 转义 java

简单的将.class文件转换成可以阅读的java文件

2011-12-05

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除