bigkeen-CSDN博客

转载查找——图文翔解HashTree（哈希树）

在各种数据结构（线性表、树等）中，记录在结构中的相对位置是随机的。因此在机构中查找记录的时需要进行一系列和关键字的比较。这一类的查找方法建立在“比较”的基础上。查找的效率依赖于查找过程中所进行的比较次数。之前我们介绍的各种基于比较的树查找算法，这些查找算法的效率都将随着数据记录数的增长而下降。仅仅是有的比较慢（时间复杂度为O(n)），有的比较快（时间复杂度是O(logn)）而已。这些查找算法的平均...

2018-06-13 20:17:20 252

转载你确定你真的懂用户画像？

什么是用户画像？在互联网逐渐步入大数据时代后，不可避免的给企业及消费者行为带来一系列改变与重塑。其中最大的变化莫过于，消费者的一切行为在企业面前似乎都将是“可视化”的。随着大数据技术的深入研究与应用，企业的专注点日益聚焦于怎样利用大数据来为精准营销服务，进而深入挖掘潜在的商业价值。于是，“用户画像”的概念也就应运而生。用户画像（User Profile）作为大数据的根基，它完美地抽象出一个用户的信...

2018-03-15 18:43:34 820

转载机器学习路线图

注：此篇博客为转载，尊重原创。原文链接地址为：http://blog.csdn.net/longxinchen_ml/article/details/50749614作者：龙心尘 && 寒小阳时间：2016年2月。出处：http://blog.csdn.net/longxinchen_ml/article/details/50749614 http://blog.csdn.n...

2018-03-15 10:26:45 260

转载用户画像的

早期的用户画像是通过对用户多方面信息的调研和了解，将多种信息分类聚合，产出几个有典型特征和气质的虚拟用户。用户画像用于辅助产品设计，评价需求是否有价值，别让产品偏离核心用户的需求；市场营销方面，可以用于方案制定，推广渠道选择，同时对运营人员也有一定的指导意义。此种的用户画像粒度比较粗，用虚拟的用户画像代表真实的用户。用户画像会用如下的文档描述。<img src="h

2017-12-28 16:55:11 946

转载如何落地用户画像分析？

用户PERSONA的含义： P 代表基本性（Primary research）指该用户角色是否基于对真实用户的情景访谈E 代表移情性（Empathy）指用户角色中包含姓名、照片和产品相关的描述，该用户角色是否引起同理心。 R 代表真实性（Realistic）指对那些每天与顾客打交道的人来说，用户角色是否看起来像真实人物。 S 代表独特性（Singular）每个用户是否是独特的，彼此

2017-12-28 16:07:05 1440

转载 Logistic回归（LR）分类器

（一）认识Logistic回归（LR）分类器首先，Logistic回归虽然名字里带“回归”，但是它实际上是一种分类方法，主要用于两分类问题，利用Logistic函数（或称为Sigmoid函数），自变量取值范围为(-INF, INF)，自变量的取值范围为(0,1)，函数形式为：由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。因此最基本的

2017-12-13 19:01:21 992

转载 K近邻法(KNN)原理小结

转自　http://www.cnblogs.com/pinard/p/6061661.htmlK近邻法(k-nearst neighbors,KNN)是一种很基本的机器学习方法了，在我们平常的生活中也会不自主的应用。比如，我们判断一个人的人品，只需要观察他来往最密切的几个人的人品好坏就可以得出了。这里就运用了KNN的思想。KNN方法既可以做分类，也可以做回归，这点和决策树算法相同。

2017-11-03 00:03:11 1769

原创 Elasticsearch Scripted Metric Aggregation 自定义聚合

1、首先创建所以：PUT test_date{ "settings":{ "number_of_shards":2, "number_of_replicas":0 }}2、创建索引结构PUT test_date/tag_type/_mapping { "tag_type": { "dynamic

2017-07-03 17:39:53 4649 1

转载 Skew Join与Left Semi Join相关

Skew Join真实数据中数据倾斜是一定的, hadoop 中默认是使用hive.exec.reducers.bytes.per.reducer = 1000000000也就是每个节点的reduce 默认是处理1G大小的数据，如果你的join 操作也产生了数据倾斜，那么你可以在hive 中设定set hive.optimize.skewjoin = true; set hiv

2016-08-30 18:28:28 528

转载并查集详解 (转)

这个文章是几年前水acm的时候转的, 当时也不知道作者是谁, 要是有人知道的话说一下吧并查集是我暑假从高手那里学到的一招，觉得真是太精妙的设计了。以前我无法解决的一类问题竟然可以用如此简单高效的方法搞定。不分享出来真是对不起party了。（party：我靠，关我嘛事啊？我跟你很熟么？）来看一个实例，杭电1232畅通工程首先在地图上给你若干个城镇，这些城镇都可

2016-07-19 14:28:10 236

转载 hbase 写数据，存数据，读数据的详细过程

Client写入 -> 存入MemStore，一直到MemStore满 -> Flush成一个StoreFile，直至增长到一定阈值 -> 出发Compact合并操作 -> 多个StoreFile合并成一个StoreFile，同时进行版本合并和数据删除 -> 当StoreFiles Compact后，逐步形成越来越大的StoreFile -> 单个StoreFile大小超过一定阈值后，触发Sp

2016-07-11 19:27:53 4233

转载搭建（win7）eclipse远程操作（Linux上）hadoop2.6.0_出错集

问题1：在DFS Lcation 上不能多文件进行操作：在hadoop上的每个节点上修改该文件 conf/mapred-site.xml 增加： dfs.permissions false

2016-06-06 02:31:04 469

转载 hadoop单机/伪分布式安装---实用

以前安装过Hadoop几个版本的单机版，主要是为了研究Hadoop源代码，现在想更加深入Hadoop整个生态系统，选择安装Hadoop完全分布式，由于目前Hadoop最新版本为2.6，于是选择这个版本安装使用准备工作：1、笔记本4G内存，操作系统WIN7（纯屌丝配置）2、工具：VMware Workstation3、虚拟机：CentOS6.5（64位）共3台，一个

2016-06-05 22:52:36 288

原创 java -version 错误

在linux上安装jdk时遇到如下问题。[root@localhost etc]# java -versionError: dl failure on line 864Error: failed /usr/local/jdk7/jre/lib/i386/client/libjvm.so, because /usr/local/jdk7/jre/lib/i386/client/li

2016-06-05 22:42:09 1320

转载 Hive 基础之：分区、桶、Sort Merge Bucket Join

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了，虽然也有 Impala 等后起之秀，但目前从功能、稳定性等方面来说，Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的，Join 是整个 MR/Hive 最为核心的部分之一，是每个 Hadoop/Hive/DW RD 必须掌握的部分，之前也有几篇文章聊到过 MR/Hive 中的 join，其实

2016-05-04 23:03:10 703

转载 SQL join中级篇--hive中 mapreduce join方法分析

1. 概述。本文主要介绍了mapreduce框架上如何实现两表JOIN。2. 常见的join方法介绍假设要进行join的数据分别来自File1和File2.2.1 reduce side joinreduce side join是一种最简单的join方式，其主要思想如下：在map阶段，map函数同时读取两个文件File1和File2，为了区分两种来源的key/value数据

2016-05-04 21:49:36 738

转载 hive udtf的使用

原文:http://blog.linezing.com/2011/03/hive%E4%B8%ADudtf%E7%BC%96%E5%86%99%E5%92%8C%E4%BD%BF%E7%94%A81. UDTF介绍UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many mapin

2016-04-24 20:02:52 1062

转载 HIVE中Join的专题---Join详解

Hive表连接的语法支持如下：Sql代码 join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_refere

2016-04-14 17:27:25 778

转载 hive join详解

Common Join最为普通的join策略，不受数据量的大小影响，也可以叫做reduce side join ,最没效率的一种join 方式. 它由一个mapreduce job 完成.首先将大表和小表分别进行map 操作, 在map shuffle 的阶段每一个map output key 变成了table_name_tag_prefix + join_column_value

2016-04-14 17:20:12 404

原创 hbase表拷贝问题

再做hbase 0.94版本向0.98.6版本的表迁移的过程中遇到如下问题：多次测试发现是0.98.6版本上的 jackson 版本为jackson-core-asl-1.8.8.jar jackson-jaxrs-1.8.8.jar jackson-mapper-asl-1.8.8.jar jackson-xc-1.8.8.jar然而2.0 需要的

2016-04-12 18:33:25 657

转载 hbase 表数据迁移

1 CopyTable 工具用法：CopyTable is a utility that can copy part or of all of a table, either to the same cluster or another cluster. The target table must first exist. The usage is as follows:$ b

2016-04-12 18:23:21 1614

转载解决方案：hbase数据迁移发生ERROR: Unknown table错误

以下是文章的原文：说明：网上众多千篇一律的版本都说要用到一个add_table.rb的文件，可是我的版本根本hbase下就不存在这个文件。1.把数据表test从hbase下拷出（hadoop dfs -get /hbase/test ./）2.文件放到新集群的系统上。3.文件拷入新的hadoop集群hbase下（hadoop dfs -put t

2016-04-01 10:38:22 2137

转载 Hbase集群间数据迁移方法总结（包括不通信集群）

问题导读：1.不同版本间集群是否可以迁移？2.distcp命令的作用是什么？3..MEAT表的作用是什么？4.相互不通信集群，数据该如何迁移？HBase迁移数据方案一（集群互联）花了一天的时间查资料做测试，略微的总结了一下hbase数据迁移的方法。一、需要在hbase集群停掉的情况下迁移步骤：(1)执行Hadoop distcp

2016-04-01 10:37:40 10284 1

转载 BloomFilter——大规模数据处理利器

BloomFilter——大规模数据处理利器　　Bloom Filter是由Bloom在1970年提出的一种多哈希函数映射的快速查找算法。通常应用在一些需要快速判断某个元素是否属于集合，但是并不严格要求100%正确的场合。一. 实例　　为了说明Bloom Filter存在的重要意义，举一个实例：　　假设要你写一个网络蜘蛛（web crawler

2016-03-01 15:17:19 916

转载 Elasticsearch入门基础----对于刚接触es的人员来说很棒

基础概念 Elasticsearch有几个核心概念。从一开始理解这些概念会对整个学习过程有莫大的帮助。接近实时（NRT） Elasticsearch是一个接近实时的搜索平台。这意味着，从索引一个文档直到这个文档能够被搜索到有一个轻微的延迟（通常是1秒）。集群（cluster）一个集群就是由一

2015-04-26 23:15:10 16832 1

转载 elasticsearch的一些基本概念

需要我们注意的是，这些概念理解只是解释其含义，不推荐强制翻译成中文。Index：这是ES存储数据的地方，类似于关系数据库的database。Document type：嗯，类似关系数据库的表，主要功能是将完全不同schema（这个概念以后会讲到，不急）的数据分开，一个index里面可以有若干个Document type。Document：好吧，这个类似关系数据库的一行，在同

2015-04-24 13:41:53 394

转载 rest接口 post与get提交的区别

urllibGETf=urllib.urlopen("http://m.cnblogs.com/")s=f.read()print s带参数params = urllib.urlencode({'id': 8, 'name': 'jack', 'age': 25})f = urllib.urlopen("http://localhost:18797/Mai

2015-04-23 18:41:05 889

转载 redis安装过程中的问题解决

今天装了个centos2.6.4 然后装jdk，完了redis2.6.4装redis2.6.4折腾了老半天，缺了很多东西，连gcc都没有无语中……废话不多说，直接上过程1、报错一没用gcc安装过程 yum install cpp yum install binutils yum install glibc yu

2015-04-15 16:12:46 1381

转载 hive的查询注意事项以及优化总结 .

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select ... from Ajoin Bon

2015-03-26 19:44:32 390

转载 map和reduce 个数的设定（Hive优化）经典

一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input

2015-03-26 19:07:56 357

转载 DB2网址

http://www.cppblog.com/prayer/category/7986.html?Show=All

2015-03-12 10:18:09 457

转载 hive大数据倾斜总结

在做Shuffle阶段的优化过程中，遇到了数据倾斜的问题，造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和，优化是基于这些Counters得出的平均值，而由于数据倾斜的原因造成map处理数据量的差异过大，使得这些平均值能代表的价值降低。Hive的执行是分阶段的，map处理数据量的差异取决于上一个stage的reduce输出，所以如何将数据均匀的

2015-03-04 10:32:26 341

转载 hbase 常用

进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证，需要事先使用相应的keytab进行一下认证（使用kinit命令），认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)>whoami表的

2015-03-02 15:55:21 284

原创 linux shell常用命令

个人工作中经常用到shell脚本，处理一些繁琐的事情，不算高深仅用于日常工作，基本可以满足。一、shell 语法:1、if控制语句结构if [ ]; then elif [ ]; thenelsefi比较数值类型-lt -gt > 如:if [ "$a" -gt "$b" ]-le -ge >= 如:if [ "

2015-02-28 14:46:45 567

转载数据仓库建模与ETL的实践技巧

一、Data仓库的架构　　Data仓库(Data Warehouse DW)是为了便于多维分析和多角度展现而将Data按特定的模式进行存储所建立起来的关系型Datcbase，它的Data基于OLTP源Systam。Data仓库中的Data是细节的、集成的、面向主题的，以OLAPSystam的分析需求为目的。　　Data仓库的架构模型包括了星型架构与雪花型架构两种模式。星型架构的中间

2014-12-10 12:59:29 534

转载在使用Kettle的集群排序中 Carte的设定

原文 http://www.cnblogs.com/inuyasha1027/p/kettle_carte.html本片文章主要是关于使用Kettle的UI界面：Spoon来实现基于集群的对数据库中的数据表数据进行排序的试验。以及在实验过程中所要开启的Carte服务的一些配置文件的设置，还有基于Windows cmd 的相关Carte命令。

2014-11-19 10:46:31 1786

linux 常用shell命令

Hive编程指南[书签版].pdf

量子恒道 Storm入门

report报表

class 转义 java

求职大数据，需要什么技术