2017年01月_mtj66

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 SparkRDD的一些使用经验

要减少shuffle的开销，主要有两个思路：减少shuffle次数，尽量不改变key，把数据处理在local完成；减少shuffle的数据规模。先去重，再合并比如有A、B这样两个规模比较大的RDD，如果各自内部有大量重复，那么二者一合并，再去重：A.union(B).distinct()这样的操作固然正确，但是如果可以先各自去重，再合并，再去重，可以大幅度减小s

2017-01-24 17:10:30 947

转载 Hadoop YARN新特性—label based scheduling

Hadoop YARN新特性—label based scheduling 网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-label-based-scheduling/在最新的hadoop 2.6.0版本中，YARN引入了一种新的调度策略：基于标签的调度机制。该机制的主要引入动机是更好地让YARN运行在异

2017-01-24 11:40:59 622

原创 Anaconda使用总结

Python易用，但用好却不易，其中比较头疼的就是包管理和Python不同版本的问题，特别是当你使用Windows的时候。为了解决这些问题，有不少发行版的Python，比如WinPython、Anaconda等，这些发行版将python和许多常用的package打包，方便pythoners直接使用，此外，还有virtualenv、pyenv等工具管理虚拟环境。个人尝试了很多类似的发行版，最

2017-01-21 14:35:36 540

转载 SparkSql Data Sources（数据源）

Spark SQLSpark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是关系型数据库里面的一张表。它可以从原有的RDD创建，也可以是Parquet文件，最重要的是它可以支持用HiveQL从hive里面读取数据。

2017-01-18 15:35:55 879

原创 SparkStringApplication进行升级时保证零丢失

升级SparkStreaming Application代码在对StreamingApplication项目进行升级时，此时如果代码发生改变的话，有两种方式可以做到。1. 升级的代码和旧的代码同时运行起来，（接收同样的数据）直到新程序能够稳定的运行。旧的程序就可以停掉。注意: 这种方式只支持能够将数据发送到两个不同的地址（新程序和老程序）的数据源，比如kafka。2.采用优雅关闭c

2017-01-16 12:18:21 705

原创 python安装使用

今天测试python的各种库的使用，scipy安装总是失败，采用知乎上的回答，将包后缀名改为zip，然后解压放到python的sitepackage中，就能引用了。不过这貌似并没有解决根本问题，引用的时候会报错。cannot import name 'moduleTNC' #4830好吧还一种适合小白的方式。直接上Anaconda 进行安装（好处是各种pytho

2017-01-15 15:06:14 1190

原创 Spark-Streaming KafkaDirectDStream checkpoint的原理

JobGenrerator.generateJobs负责Streaming Job的产生，产生并且提交执行Job之后，会发送DoCheckpoint事件，源码如下：[java] view plain copyprivate def generateJobs(time: Time) { // Set the SparkEnv in t

2017-01-08 19:28:44 2123

转载 Hbase总结 Hhase性能调优

因官方Book Performance Tuning部分章节没有按配置项进行索引，不能达到快速查阅的效果。所以我以配置项驱动，重新整理了原文，并补充一些自己的理解，如有错误，欢迎指正。配置优化zookeeper.session.timeout默认值：3分钟（180000ms）说明：RegionServer与Zookeeper间的连接超时时间。当超时时间到后，ReigonSe

2017-01-05 17:24:19 515

转载决定Spark RDD分区算法因素的总结

RDD在调用引起Shuffle的方法的时候，如果没有显示指定ShuffledRDD的分区，那么会调用Partitioner.defaultPartitioner方法来确定ShuffledRDD的分区，比如RDD.combineByKey:[java] view plain copy def combineByKey[C](createCombin

2017-01-02 23:21:08 640

原创 Hive文件存储格式 :Parquet sparksql ,impala的杀手锏

Hive文件存储格式1.textfiletextfile为默认格式存储方式：行存储磁盘开销大数据解析开销大压缩的text文件 hive无法进行合并和拆分2.sequencefile二进制文件,以的形式序列化到文件中存储方式：行存储可分割压缩一般选择block压缩优势是文件和Hadoop api中的mapfile是相互兼容的。3.rcfile存储方式：数据按行分块每

2017-01-01 22:50:40 6143

转载 hive优化之——控制hive任务中的map数和reduce

一、控制hive任务中的map数:1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例：a) 假设input目录下有1个文件a,大

2017-01-01 15:49:15 484

逆地理编码离线版-精度到乡镇街道

传入经纬度，解析出地址信息，性能:4ms/条地址精度到乡镇街道，包含城市等级，精度满足一般的需求，如对精度要求极高请勿下载

2022-07-01

useragent解析逻辑&手机品牌匹配.txt

在对浏览界面进行解析获取用户信息的过程中，想要精准识别用户，对useragent解析&手机品牌匹配是必不可少的环节，本文档提供了解析逻辑，以及提供了最新的手机品牌和useragent对应的文件，帮你丰富用户画像，以及作为模型特征因子。

2021-11-22

windows服务器python程序部署文档.doc

如果在window服务器中部署python程序呢？本文有部署流程指导：从安装到定时任务的创建

2021-11-15

shakespeare.json&logs;.jsonl.gz&accounts;.zip

官网原始链接失效该压缩文件已经打包上传，提供大家测试使用。 shakespeare.json&logs;.jsonl.gz&accounts;.zip

2018-01-10

kafka-manager 1.3.3.15

已经编译好的 kafka-manager 1.3.3.15 具体使用可以参考 https://github.com/yahoo/kafka-manager

2018-01-08

中文版，提供百度网盘下载。本书作者：Ralph Kimball博士主要介绍本书从维度建模的基本知识入手，通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究，全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。同时，本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识，然后逐个讨论具体实例内容，最后进行综合总体分析，在内容的结构方面很有特色。本书涉及的行业较多，但这些内容从不同角度体现了数据仓库的各个方面，因而对于完整的学习与掌握数据仓库知识显得十分必要。仅供学习使用，切勿商业用途。

2017-10-16

数据仓库工具箱维度建模权威指南第3版

数据仓库工具箱维度建模权威指南第3版本书主要介绍本书从维度建模的基本知识入手，通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究，全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。同时，本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识，然后逐个讨论具体实例内容，最后进行综合总体分析，在内容的结构方面很有特色。本书涉及的行业较多，但这些内容从不同角度体现了数据仓库的各个方面，因而对于完整的学习与掌握数据仓库知识显得十分必要。

2017-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

mtj66的博客，交流WX:SpringBreeze1104

原创 SparkRDD的一些使用经验

转载 Hadoop YARN新特性—label based scheduling

原创 Anaconda使用总结

转载 SparkSql Data Sources（数据源）

原创 SparkStringApplication进行升级时保证零丢失

原创 python安装使用

原创 Spark-Streaming KafkaDirectDStream checkpoint的原理

转载 Hbase总结 Hhase性能调优

转载决定Spark RDD分区算法因素的总结

原创 Hive文件存储格式 :Parquet sparksql ,impala的杀手锏

转载 hive优化之——控制hive任务中的map数和reduce

逆地理编码离线版-精度到乡镇街道

useragent解析逻辑&手机品牌匹配.txt

windows服务器python程序部署文档.doc

T+0操作方法与技巧.pptx

shakespeare.json&logs;.jsonl.gz&accounts;.zip

kafka-manager 1.3.3.15

百度网盘数据仓库工具箱维度建模权威指南第3版全

数据仓库工具箱维度建模权威指南第3版

Tensorflow 实战Google深度学习框架

IDEA 创建scala工程并打指定的依赖包

高德地图POI类型表

常用数据挖掘算法总结及Python实现

hbase自定义Comparator进行数值比较

百度云存储LBS

创建单个分区的window虚拟机

空空如也

逆地理编码离线版-精度到乡镇街道

useragent解析逻辑&手机品牌匹配.txt

windows服务器python程序部署文档.doc

T+0操作方法与技巧.pptx

shakespeare.json&logs;.jsonl.gz&accounts;.zip

kafka-manager 1.3.3.15

百度网盘 数据仓库工具箱 维度建模权威指南 第3版 全

数据仓库工具箱 维度建模权威指南 第3版

Tensorflow 实战Google深度学习框架

IDEA 创建scala工程并打指定的依赖包

高德地图POI类型表

常用数据挖掘算法总结及Python实现

hbase自定义Comparator进行数值比较

百度云存储LBS

创建单个分区的window虚拟机

空空如也

百度网盘数据仓库工具箱维度建模权威指南第3版全

数据仓库工具箱维度建模权威指南第3版