- 博客(16)
- 资源 (19)
- 收藏
- 关注
转载 Bit Map算法简介
1. Bit Map算法简介 来自于《编程珠玑》。所谓的Bit-map就是用一个bit位来标记某个元素对应的Value, 而Key即是该元素。由于采用了Bit为单位来存储数据,因此在存储空间方面,可以大大节省。2、 Bit Map的基本思想 我们先来看一个具体的例子,假设我们要对0-7内的5个元素(4,7,2,5,3)排序(这
2017-03-26 20:35:39 657
转载 海量数据处理算法—Bloom Filter
1. Bloom-Filter算法简介 Bloom-Filter,即布隆过滤器,1970年由Bloom中提出。它可以用于检索一个元素是否在一个集合中。 Bloom Filter(BF)是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。它是一个判断元素是否存在集合的快速的概率算法。Bloom Filter有
2017-03-26 20:34:03 2244
转载 Spark:用Scala和Java实现WordCount
http://www.cnblogs.com/byrhuangqiang/p/4017725.html为了在IDEA中编写Scala,今天安装配置学习了IDEA集成开发环境。IDEA确实很优秀,学会之后,用起来很顺手。关于如何搭建scala和IDEA开发环境,请看文末的参考资料。用Scala和Java实现WordCount,其中Java实现的JavaWordCount是Sp
2017-03-26 18:30:55 452
转载 Spark-ML-01-小试spark分析离线商品信息
任务一个在线商品购买记录数据集,约40M,格式如下:Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,99Jack,iphone cover,9,9912341234完成统计: 1.购买总次数 2.客户总个数 3.总收入 4.最畅销的商品代码import java.u
2017-03-23 23:10:49 392
转载 Spark SQL 初探: 使用大数据分析2000万数据
目录 [−]安装和配置SparkSpark初试使用Spark SQL分析数据去年网上曾放出个2000W的开房记录的数据库, 不知真假。 最近在学习Spark, 所以特意从网上找来数据测试一下, 这是一个绝佳的大数据素材。 如果数据涉及到个人隐私,请尽快删除, 本站不提供此类数据。你可以写个随机程序生成2000W的测试数据, 以CSV格式。Spark是UC Berke
2017-03-23 23:08:58 1385
转载 基于Spark的用户行为路径分析的产品化实践
1. 什么是用户行为路径用户行为路径分析是互联网行业特有的一类数据分析方法,它主要根据每位用户在App或网站中的点击行为日志,分析用户在App或网站中各个模块的流转规律与特点,挖掘用户的访问或点击模式,进而实现一些特定的业务用途,如App核心模块的到达率提升、特定用户群体的主流路径提取与浏览特征刻画,App产品设计的优化与改版等。2. 路径分析业务场景用户行为路径分析的一
2017-03-23 23:04:39 2829
转载 Spark 入门实战之最好的实例
转载:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice1/搭建开发环境安装 Scala IDE搭建 Scala 语言开发环境很容易,Scala IDE 官网 下载合适的版本并解压就可以完成安装,本文使用的版本是 4.1.0。安装 Scala 语言包如果下载的 S
2017-03-10 17:38:00 607
转载 Spark性能优化:shuffle调优
shuffle调优调优概述 大多数Spark作业的性能主要就是消耗在了shuffle环节,因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。因此,如果要让作业的性能更上一层楼,就有必要对shuffle过程进行调优。但是也必须提醒大家的是,影响一个Spark作业性能的因素,主要还是代码开发、资源参数以及数据倾斜,shuffle调优只能在整个Spark的性能调优中占
2017-03-08 15:33:32 342
转载 Hive统计新增,日活和留存率
用户行为触发的日志上报,已经存放在Hive的外部分区表中.结构如下:主要字段内容dt表示日期,如20160510platform表示平台,只有两个选项,苹果和安卓mid是用户机器码,类似于网卡MAC地址什么的pver是版本channel是分发渠道现在产品经理需要统计每天用户的新增,日活和留存率.其中留存率的概念是,如果用户在5月1日第一次使用
2017-03-08 14:55:47 3343
转载 Spark SQL访问Hive,MySQL
一: 版本 搭建好的Hadoop环境,Hive环境,Spark环境。本文Hadoop版本为 Hadoop-2.6.4,Hive版本为Hive-2.0.0,Spark版本为spark-1.6.1-bin-hadoop2.6。二: 配置spark-env.sh 在 SPARK_HOME/conf/spark-env.sh 中配置以下内容:
2017-03-08 14:54:30 1260
转载 Spark-1.3.1与Hive整合实现查询分析
在大数据应用场景下,使用过Hive做查询统计分析的应该知道,计算的延迟性非常大,可能一个非常复杂的统计分析需求,需要运行1个小时以上,但是比之于使用MySQL之类关系数据库做分析,执行速度快很多很多。使用HiveQL写类似SQL的查询分析语句,最终经过Hive查询解析器,翻译成Hadoop平台上的MapReduce程序进行运行,这也是MapReduce计算引擎的特点带来的延迟问题:Map中间结果写
2017-03-08 14:51:23 556
转载 scala筛选460亿条记录的hive表
背景:接到任务,需要在一个一天数据量在460亿条记录的hive表中,筛选出某些host为特定的值时才解析该条记录的http_content中的经纬度:解析规则譬如:1234需要解析host: api.map.baidu.com需要解析的规则:"result":{"location":{"lng"
2017-03-08 14:40:37 1869
转载 从JVM内存模型谈线程安全
存储器层次结构对于开发者来说,存储器的层次结构应该是非常熟悉的,大体如下: 其中寄存器,L1,L2,L3都被封装在CPU芯片中,作为应用开发者而言我们很少去注意和使用它.之所以引入L1,L2,L3高速寄存器,其根本是为了解决访问运算器和内存速度不匹配.但缓存的引入也带来两个问题:缓存命中率:缓存的数据都是主存中数据的备份,如果指令所需要的数据恰好在缓存中,我们就说缓存命
2017-03-06 15:00:59 674
转载 报表组件FineReport如何连接hadoop,hive数据库
Hadoop是个很流行的分布式计算解决方案,Hive是基于hadoop的数据分析工具。一般来说我们对Hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,这样的模式用来做一些测试比较合适,并不适合做产品的开发和应用。因此,就产生Hive的JDBC连接的方式。下面就通过报表组件FineReport向大家介绍。
2017-03-03 08:54:16 4119
转载 基于HIVE数据库出报表的后台相关工具介绍
1. Sqoop是让Hadoop技术支持的clouder公司开发的一个在关系数据库和hdfs,Hive之间数据导入导出的一个工具.2. SQLyogSQLyog 是业界著名的 Webyog 软件公司出品的一款简洁高效、功能强大的图形化MySQL数据库管理工具。使用SQLyog可以快速直观地让您从世界的任何角落通过网络来维护远端的MySQL数据库。3.
2017-03-03 08:52:02 541
转载 Hive统计新增,日活和留存率, 使用sqoop导出到MYSql
用户行为触发的日志上报,已经存放在Hive的外部分区表中.结构如下:主要字段内容dt表示日期,如20160510platform表示平台,只有两个选项,苹果和安卓mid是用户机器码,类似于网卡MAC地址什么的pver是版本channel是分发渠道现在产品经理需要统计每天用户的新增,日活和留存率.其中留存率的概念是,如果用户在5月1日第一次使用
2017-03-03 08:50:49 650
2018年数据可视化的8大趋势
2018-01-10
Kafka核心原理与实战(并不是原书,请看描述和评论下载)
2018-01-10
《开源》200801.pdf
2008-04-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人