自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mtj66的博客,交流WX:SpringBreeze1104

一个开发的进阶历程

  • 博客(12)
  • 资源 (15)
  • 收藏
  • 关注

转载 dataFrame操作

spark dataframe派生于RDD类,但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况,主要是会进行两个数据集的筛选、合并,重新入库。首先加载数据集,然后在提取数据集的前几行过程中,才找到limit的函数。而合并就用到union函数,重新入库,就是registerTemple注册成表,再进行

2016-07-29 14:41:44 4059

原创 spark参数调整

直接报错  spark Kryo serialization failed: Buffer overflow 错误提示需要调整的参数是 spark.kryoserializer.buffer.max 最少是20 默认的显示为0 --conf 'spark.kryoserializer.buffer.max=64'

2016-07-23 16:41:29 7346

原创 spark的submit

# Run on a YARN clusterexport HADOOP_CONF_DIR=XXX./bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master yarn \ --deploy-mode cluster \ # can be client for client mode --e

2016-07-17 22:17:14 741

原创 WARN zookeeper.RecoverableZooKeeper: Unable to create ZooKeeper Connection

在提交spark作業的時候遇到的问题。16/07/13 17:08:24 WARN zookeeper.RecoverableZooKeeper: Unable to create ZooKeeper Connectionjava.net.UnknownHostException:  10.24.62.184at org.apache.spark.deploy.Spar

2016-07-13 18:12:28 7878 1

原创 相似度算法

1. 杰卡德相似系数(Jaccardsimilarity coefficient)(1) 杰卡德相似系数两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数,用符号J(A,B)表示。杰卡德相似系数是衡量两个集合的相似度一种指标。(2) 杰卡德距离与杰卡德相似系数相反的概念是 杰卡德距离( Jaccarddistance)。

2016-07-13 09:13:45 1020

转载 GC调优在Spark应用中的实践

| 来源《程序员》电子刊5月B 作者王道远,黄洁通常CMS GC是企业比较常用的GC配置方案,并在长期实践中取得了比较好的效果。例如对于进程中若存在大量寿命较长的对象,Parallel GC经常带来较大的性能下降。因此,即使是批处理的程序也能从CMS GC中获益。不过,在从1.6开始的HOTSPOT JVM中,我们发现了一个新的GC设置项:Garbage-First GC(G1 GC)。O

2016-07-06 20:01:59 651

转载 spark on yarn作业运行的jar包缓存优化

这几天一直在追查spark on yarn的作业运行中的jar包分发,以及执行后的jar包删除的问题。从一开始的毫无头绪,到后来逐渐清晰,到后来通过hadoop的两个很简单的参数配置解决了问题。不得不说,虽然问题不大,对某些大牛们来说也真是小case,但是追查问题,定位问题到最终解决问题的过程,对我来说真是很不错的体验和学习过程。下面详细描述一下遇到的问题,以及解决的过程,给后面的同学一点参考。

2016-07-06 19:59:15 2580

原创 Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient

Caused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke the "DBCP" plugin to create a ConnectionPool gave an error : The specified datastore driver ("com.mysql.jdbc.Driver") was no

2016-07-06 19:46:20 2382 1

原创 The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH

Caused by: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClientCaused by: org.datanucleus.exceptions.NucleusException: Attempt to invoke th

2016-07-06 17:37:05 4912

转载 Kafka 之 中级

摘要Kafka配置介绍,原理介绍及生产者,消费者Java基本使用方法。1.    配置Ø  Broker主要配置 参数默认值说明(解释)broker.id =0每一个broker在集群中的唯一表示,要求是正数。当该服务器的IP地址发生改变时,broker.id没有变化,则不会影响co

2016-07-04 17:51:22 500

转载 eclipse快捷键及重置快捷键

Ctrl+1快速修复(最经典的快捷键,就不用多说了)Ctrl+D删除当前行Ctrl+Alt+↓复制当前行到下一行(复制增加)Ctrl+Alt+↑复制当前行到上一行(复制增加)Alt+↓当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)

2016-07-04 17:25:58 909

原创 快速排序

public class Algorithm_Java { static ArrayList listNumber = new ArrayList<>(); public static void main(String[] args) { listNumber.add(6); listNumber.add(2); listNumber.add(7); listNumbe

2016-07-02 10:57:58 351

逆地理编码离线版-精度到乡镇街道

传入经纬度,解析出地址信息,性能:4ms/条 地址精度到乡镇街道,包含城市等级,精度满足一般的需求,如对精度要求极高请勿下载

2022-07-01

useragent解析逻辑&手机品牌匹配.txt

在对浏览界面进行解析获取用户信息的过程中,想要精准识别用户,对useragent解析&手机品牌匹配是必不可少的环节,本文档提供了解析逻辑,以及提供了最新的手机品牌和useragent对应的文件,帮你丰富用户画像,以及作为模型特征因子。

2021-11-22

windows服务器python程序部署文档.doc

如果在window服务器中部署python程序呢?本文有部署流程指导:从安装到定时任务的创建

2021-11-15

T+0操作方法与技巧.pptx

股市短线交易必学技能

2021-11-15

shakespeare.json&logs;.jsonl.gz&accounts;.zip

官网原始链接失效 该压缩文件已经打包上传,提供大家测试使用 。 shakespeare.json&logs;.jsonl.gz&accounts;.zip

2018-01-10

kafka-manager 1.3.3.15

已经编译好的 kafka-manager 1.3.3.15 具体使用可以参考 https://github.com/yahoo/kafka-manager

2018-01-08

百度网盘 数据仓库工具箱 维度建模权威指南 第3版 全

中文版,提供百度网盘下载。 本书作者:Ralph Kimball博士 主要介绍本书从维度建模的基本知识入手,通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究,全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。 同时,本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。 仅供学习使用,切勿商业用途。

2017-10-16

数据仓库工具箱 维度建模权威指南 第3版

数据仓库工具箱 维度建模权威指南 第3版 本书主要介绍本书从维度建模的基本知识入手,通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究,全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。 同时,本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。

2017-10-16

Tensorflow 实战Google深度学习框架

Tensorflow 实战Google深度学习框架,仅供学习使用,切勿用于商业用途。

2017-10-06

IDEA 创建scala工程并打指定的依赖包

该文档主要使用IDEA进行scala工程的创建以及打依赖的jar包,步骤详细。 为了感谢大家的支持,现在把积分调整到1积分,更好的为大家提供帮助.

2017-08-11

高德地图POI类型表

高德地图POI类型表

2017-07-11

常用数据挖掘算法总结及Python实现

数据挖掘算法

2017-06-19

hbase自定义Comparator进行数值比较

hbase 自带的Comparator只能进行字符串的比较,不能进行数值比较,通过自定义代码实现该功能。 具体使用请参考 http://blog.csdn.net/mtj66/article/details/52574739

2016-11-07

百度云存储LBS

百度云存储LBS

2016-10-21

创建单个分区的window虚拟机

此文档通过截图简要的概述了创建window7虚拟机的步骤。

2016-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除