2018年06月_mtj66

12月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 hive string 转数组：抽取数组中的key 然后列转行

-- | 1110 | [{"content":"全部内容。" }, { "content":"无其它特别约定。"}] | select id,concat_ws('||',collect_set(content)) as contents from ( select id, get_json_object(cl,'$.content') as content from ( select id,...

2018-06-28 21:18:34 21715

原创 pyspark 环境

export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH这种方式是全局的还有一种方式就是采用import sysSPARK_HOME=""sys.path.append(SPARK_HOME)...

2018-06-16 09:29:41 330

转载 Python中list、tuple、str和dict之间的相互转换

ref: https://blog.csdn.net/violet_echo_0908/article/details/524866891、字典（dict）dict = {‘name’: ‘Zara’, ‘age’: 7, ‘class’: ‘First’}1.1 字典——字符串返回：print type(str(dict)), str(dict)11.2 字典——元组返回：(‘age’, ‘na...

2018-06-13 14:06:42 4262 1

原创 python virtualenv 虚拟环境的配置

# 准备工作1.安装python3apt-get install python32.安装pip3apt-get install python3-pip3.为python3添加包sudo pip3 install packagename# 1. sudo pip3 install virtualenv# 2. 创建python3的虚拟环境virtualenv -p /usr/bin/python3 ...

2018-06-12 11:59:26 565

原创遍历当前路径下的文件夹进行压缩

#!/bin/bashfunction getdir(){ for element in `ls $1` do dir_or_file=$1"/"$element if [ -d $dir_or_file ]; # -d 文件夹判断 then echo "dir == $dir_or_file" # getdir $dir_or...

2018-06-08 11:36:32 1459

原创一个scala工程的父子工程pom文件,仅供scala IDEA使用

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.x...

2018-06-08 10:46:15 1465

原创 ansible 实用技巧批量查看各个节点的其他用户的定时任务,以及批量拷贝文件

如何以root用户批量查看各个节点的其他用户的定时任务,在集群运维中很常用:ansible all -m shell -a " su hdfs -c 'crontab -l ' " 此外从当前结点批量拷贝到各个节点文件 :ansible hbase -m copy -a "src=/data/download/add_sit_hosts.sh backup=yes dest=/data/tmp"...

2018-06-08 09:55:15 1732

原创 GCViewer 使用

[GCViewer](https://github.com/chewiebug/GCViewer) 是一款开源的GC日志分析工具。项目的 GitHub 主页对各个指标提供了完整的描述信息你需要安装了JDK或者Java. 解压之后, 然后双击点击 start.cmd当然, 直接在命令行执行Java命令也是可以的:java -jar gcviewer_1.3.4.jar gc.log或者java -...

2018-06-06 17:59:20 4305

原创 Ubuntu16.04 OpenCV3.4.1 及扩展模块环境搭建 with python3.5

第二次编译opencv了,还是记录下吧准备python3sudo apt-get install python2.7-dev python3.5-devPython 3.5.2 (default, Nov 23 2017, 16:37:01) [GCC 5.4.0 20160609] on linuxType "help", "copyright", "credits" or "license" ...

2018-06-06 14:30:24 774

转载 ubuntu挂载新硬盘的方法

#查看硬盘列表 sudo fdisk -l为新硬盘添加分区sudo fdisk /dev/sdb n：添加新分区 p：使用主分区 l：主分区编号为1，这样创建的分区为sdb1格式化新分区sudo mkfs ext4 /dev/sdb1 #使用ext4格式化sdb1分区随意创建一个文件夹，将新分区挂载上去sudo mkdir /disk2 sudo mount /dev/sdb1 /disk2 #...

2018-06-06 14:17:14 430

原创 ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory解决方案

>>> import tensorflow as tfTraceback (most recent call last): File "/usr/local/lib/python3.5/dist-packages/tensorflow/python/pywrap_tensorflow.py", line 58, in <module> from tensorf...

2018-06-05 17:25:03 3423 1

原创 Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Output directory not se

Exception in thread &quot;main&quot; org.apache.hadoop.mapred.InvalidJobConfException: Output directory not se当从SparkSql得到的dataFrame，映射成RDD之后向hbase中直接保存数据的时候报错：Exception in thread "main" org.a...

2018-06-04 14:47:32 5087 1

原创 shell定时删除spark的applicationHistory历史文件

删除很简单,但是不能删除一些正在运行的程序的日志,尤其是spark streaming 的日志文件,一旦删除无法再生,以后想查日志都难.下面的脚本实现删除一个月之前的spark application的历史文件,记录下,大伙可以参考修改使用.#! /bash # delete 30 day's before spark history logs ######################...

2018-06-01 15:35:59 3969 1

逆地理编码离线版-精度到乡镇街道

传入经纬度，解析出地址信息，性能:4ms/条地址精度到乡镇街道，包含城市等级，精度满足一般的需求，如对精度要求极高请勿下载

2022-07-01

useragent解析逻辑&手机品牌匹配.txt

在对浏览界面进行解析获取用户信息的过程中，想要精准识别用户，对useragent解析&手机品牌匹配是必不可少的环节，本文档提供了解析逻辑，以及提供了最新的手机品牌和useragent对应的文件，帮你丰富用户画像，以及作为模型特征因子。

2021-11-22

windows服务器python程序部署文档.doc

如果在window服务器中部署python程序呢？本文有部署流程指导：从安装到定时任务的创建

2021-11-15

T+0操作方法与技巧.pptx

股市短线交易必学技能

2021-11-15

shakespeare.json&logs;.jsonl.gz&accounts;.zip

官网原始链接失效该压缩文件已经打包上传，提供大家测试使用。 shakespeare.json&logs;.jsonl.gz&accounts;.zip

2018-01-10

kafka-manager 1.3.3.15

已经编译好的 kafka-manager 1.3.3.15 具体使用可以参考 https://github.com/yahoo/kafka-manager

2018-01-08

百度网盘数据仓库工具箱维度建模权威指南第3版全

中文版，提供百度网盘下载。本书作者：Ralph Kimball博士主要介绍本书从维度建模的基本知识入手，通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究，全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。同时，本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识，然后逐个讨论具体实例内容，最后进行综合总体分析，在内容的结构方面很有特色。本书涉及的行业较多，但这些内容从不同角度体现了数据仓库的各个方面，因而对于完整的学习与掌握数据仓库知识显得十分必要。仅供学习使用，切勿商业用途。

2017-10-16

数据仓库工具箱维度建模权威指南第3版

数据仓库工具箱维度建模权威指南第3版本书主要介绍本书从维度建模的基本知识入手，通过给出零售、库存、采购、订单管理、顾客关系管理、账目、人力资源管理、财经服务、电信与公用事业、交通、教育、卫生护理、电子商务以及保险等方面的实例研究，全面、深入、透彻与具体地介绍了利用维度模型设计与开发数据仓库的综合技术知识。同时，本书对数据仓库在当前社会与技术背景下的发展前景进行了很有远见的探索。本书先介绍基本知识，然后逐个讨论具体实例内容，最后进行综合总体分析，在内容的结构方面很有特色。本书涉及的行业较多，但这些内容从不同角度体现了数据仓库的各个方面，因而对于完整的学习与掌握数据仓库知识显得十分必要。

2017-10-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

mtj66的博客，交流WX:SpringBreeze1104

原创 hive string 转数组：抽取数组中的key 然后列转行

原创 pyspark 环境

转载 Python中list、tuple、str和dict之间的相互转换

原创 python virtualenv 虚拟环境的配置

原创遍历当前路径下的文件夹进行压缩

原创一个scala工程的父子工程pom文件,仅供scala IDEA使用

原创 ansible 实用技巧批量查看各个节点的其他用户的定时任务,以及批量拷贝文件

原创 GCViewer 使用

原创 Ubuntu16.04 OpenCV3.4.1 及扩展模块环境搭建 with python3.5

转载 ubuntu挂载新硬盘的方法

原创 ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory解决方案

原创 Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Output directory not se

原创 shell定时删除spark的applicationHistory历史文件

逆地理编码离线版-精度到乡镇街道

useragent解析逻辑&手机品牌匹配.txt

windows服务器python程序部署文档.doc

T+0操作方法与技巧.pptx

shakespeare.json&logs;.jsonl.gz&accounts;.zip

kafka-manager 1.3.3.15

百度网盘数据仓库工具箱维度建模权威指南第3版全

数据仓库工具箱维度建模权威指南第3版

Tensorflow 实战Google深度学习框架

IDEA 创建scala工程并打指定的依赖包

高德地图POI类型表

常用数据挖掘算法总结及Python实现

hbase自定义Comparator进行数值比较

百度云存储LBS

创建单个分区的window虚拟机

空空如也

逆地理编码离线版-精度到乡镇街道

useragent解析逻辑&手机品牌匹配.txt

windows服务器python程序部署文档.doc

T+0操作方法与技巧.pptx

shakespeare.json&logs;.jsonl.gz&accounts;.zip

kafka-manager 1.3.3.15

百度网盘 数据仓库工具箱 维度建模权威指南 第3版 全

数据仓库工具箱 维度建模权威指南 第3版

Tensorflow 实战Google深度学习框架

IDEA 创建scala工程并打指定的依赖包

高德地图POI类型表

常用数据挖掘算法总结及Python实现

hbase自定义Comparator进行数值比较

百度云存储LBS

创建单个分区的window虚拟机

空空如也

百度网盘数据仓库工具箱维度建模权威指南第3版全

数据仓库工具箱维度建模权威指南第3版