自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

mtj66的博客,交流WX:SpringBreeze1104

一个开发的进阶历程

  • 博客(13)
  • 资源 (15)
  • 收藏
  • 关注

原创 hive string 转数组:抽取数组中的key 然后列转行

 -- | 1110 | [{"content":"全部内容。" }, { "content":"无其它特别约定。"}] | select id,concat_ws('||',collect_set(content)) as contents from ( select id, get_json_object(cl,'$.content') as content from ( select id,...

2018-06-28 21:18:34 21715

原创 pyspark 环境

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH这种方式是全局的  还有一种方式 就是采用import sysSPARK_HOME=""sys.path.append(SPARK_HOME)...

2018-06-16 09:29:41 330

转载 Python中list、tuple、str和dict之间的相互转换

ref: https://blog.csdn.net/violet_echo_0908/article/details/524866891、字典(dict)dict = {‘name’: ‘Zara’, ‘age’: 7, ‘class’: ‘First’}1.1 字典——字符串返回:print type(str(dict)), str(dict)11.2 字典——元组返回:(‘age’, ‘na...

2018-06-13 14:06:42 4262 1

原创 python virtualenv 虚拟环境的配置

# 准备工作1.安装python3apt-get install python32.安装pip3apt-get install python3-pip3.为python3添加包sudo pip3 install packagename# 1. sudo pip3 install virtualenv# 2. 创建python3的虚拟环境virtualenv -p /usr/bin/python3 ...

2018-06-12 11:59:26 565

原创 遍历当前路径下的文件夹进行压缩

#!/bin/bashfunction getdir(){ for element in `ls $1` do dir_or_file=$1"/"$element if [ -d $dir_or_file ]; # -d 文件夹判断 then echo "dir == $dir_or_file" # getdir $dir_or...

2018-06-08 11:36:32 1459

原创 一个scala工程的父子工程pom文件,仅供scala IDEA使用

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.x...

2018-06-08 10:46:15 1465

原创 ansible 实用技巧 批量查看各个节点的其他用户的定时任务,以及批量拷贝文件

如何以root用户批量查看各个节点的其他用户的定时任务,在集群运维中很常用:ansible all  -m shell -a " su hdfs -c 'crontab -l ' " 此外从当前结点批量拷贝到各个节点文件 :ansible hbase -m copy -a "src=/data/download/add_sit_hosts.sh backup=yes dest=/data/tmp"...

2018-06-08 09:55:15 1732

原创 GCViewer 使用

[GCViewer](https://github.com/chewiebug/GCViewer) 是一款开源的GC日志分析工具。项目的 GitHub 主页对各个指标提供了完整的描述信息你需要安装了JDK或者Java. 解压之后, 然后双击点击  start.cmd当然, 直接在命令行执行Java命令也是可以的:java -jar gcviewer_1.3.4.jar gc.log或者java -...

2018-06-06 17:59:20 4305

原创 Ubuntu16.04 OpenCV3.4.1 及扩展模块环境搭建 with python3.5

第二次编译opencv了,还是记录下吧准备python3sudo apt-get install python2.7-dev python3.5-devPython 3.5.2 (default, Nov 23 2017, 16:37:01) [GCC 5.4.0 20160609] on linuxType "help", "copyright", "credits" or "license" ...

2018-06-06 14:30:24 774

转载 ubuntu挂载新硬盘的方法

#查看硬盘列表  sudo fdisk -l为新硬盘添加分区sudo fdisk /dev/sdb n:添加新分区 p:使用主分区 l:主分区编号为1,这样创建的分区为sdb1格式化新分区sudo mkfs ext4 /dev/sdb1 #使用ext4格式化sdb1分区随意创建一个文件夹,将新分区挂载上去sudo mkdir /disk2 sudo mount /dev/sdb1 /disk2 #...

2018-06-06 14:17:14 430

原创 ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory解决方案

>>> import tensorflow as tfTraceback (most recent call last):  File "/usr/local/lib/python3.5/dist-packages/tensorflow/python/pywrap_tensorflow.py", line 58, in <module>    from tensorf...

2018-06-05 17:25:03 3423 1

原创 Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Output directory not se

Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Output directory not se当从SparkSql得到的dataFrame,映射成RDD之后向hbase中直接保存数据的时候报错:Exception in thread "main" org.a...

2018-06-04 14:47:32 5087 1

原创 shell定时删除spark的applicationHistory历史文件

删除很简单,但是不能删除一些正在运行的程序的日志,尤其是spark streaming 的日志文件,一旦删除无法再生,以后想查日志都难.下面的脚本实现删除一个月之前的spark application的历史文件,记录下,大伙可以参考修改使用.#! /bash # delete 30 day's before spark history logs ######################...

2018-06-01 15:35:59 3969 1

逆地理编码离线版-精度到乡镇街道

传入经纬度,解析出地址信息,性能:4ms/条 地址精度到乡镇街道,包含城市等级,精度满足一般的需求,如对精度要求极高请勿下载

2022-07-01

useragent解析逻辑&手机品牌匹配.txt

在对浏览界面进行解析获取用户信息的过程中,想要精准识别用户,对useragent解析&手机品牌匹配是必不可少的环节,本文档提供了解析逻辑,以及提供了最新的手机品牌和useragent对应的文件,帮你丰富用户画像,以及作为模型特征因子。

2021-11-22

windows服务器python程序部署文档.doc

如果在window服务器中部署python程序呢?本文有部署流程指导:从安装到定时任务的创建

2021-11-15

T+0操作方法与技巧.pptx

股市短线交易必学技能

2021-11-15

shakespeare.json&logs;.jsonl.gz&accounts;.zip

官网原始链接失效 该压缩文件已经打包上传,提供大家测试使用 。 shakespeare.json&logs;.jsonl.gz&accounts;.zip

2018-01-10

kafka-manager 1.3.3.15

已经编译好的 kafka-manager 1.3.3.15 具体使用可以参考 https://github.com/yahoo/kafka-manager

2018-01-08

百度网盘 数据仓库工具箱 维度建模权威指南 第3版 全

中文版,提供百度网盘下载。 本书作者:Ralph Kimball博士 主要介绍本书从维度建模的基本知识入手,通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究,全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。 同时,本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。 仅供学习使用,切勿商业用途。

2017-10-16

数据仓库工具箱 维度建模权威指南 第3版

数据仓库工具箱 维度建模权威指南 第3版 本书主要介绍本书从维度建模的基本知识入手,通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究,全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。 同时,本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识,然后逐个讨论具体实例内容,最后进行综合总体分析,在内容的结构方面很有特色。本书涉及的行业较多,但这些内容从不同角度体现了数据仓库的各个方面,因而对于完整的学习与掌握数据仓库知识显得十分必要。

2017-10-16

Tensorflow 实战Google深度学习框架

Tensorflow 实战Google深度学习框架,仅供学习使用,切勿用于商业用途。

2017-10-06

IDEA 创建scala工程并打指定的依赖包

该文档主要使用IDEA进行scala工程的创建以及打依赖的jar包,步骤详细。 为了感谢大家的支持,现在把积分调整到1积分,更好的为大家提供帮助.

2017-08-11

高德地图POI类型表

高德地图POI类型表

2017-07-11

常用数据挖掘算法总结及Python实现

数据挖掘算法

2017-06-19

hbase自定义Comparator进行数值比较

hbase 自带的Comparator只能进行字符串的比较,不能进行数值比较,通过自定义代码实现该功能。 具体使用请参考 http://blog.csdn.net/mtj66/article/details/52574739

2016-11-07

百度云存储LBS

百度云存储LBS

2016-10-21

创建单个分区的window虚拟机

此文档通过截图简要的概述了创建window7虚拟机的步骤。

2016-10-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除