- 博客(13)
- 资源 (15)
- 收藏
- 关注
原创 hive string 转数组:抽取数组中的key 然后列转行
-- | 1110 | [{"content":"全部内容。" }, { "content":"无其它特别约定。"}] | select id,concat_ws('||',collect_set(content)) as contents from ( select id, get_json_object(cl,'$.content') as content from ( select id,...
2018-06-28 21:18:34 21715
原创 pyspark 环境
export PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.8.2.1-src.zip:$PYTHONPATH这种方式是全局的 还有一种方式 就是采用import sysSPARK_HOME=""sys.path.append(SPARK_HOME)...
2018-06-16 09:29:41 330
转载 Python中list、tuple、str和dict之间的相互转换
ref: https://blog.csdn.net/violet_echo_0908/article/details/524866891、字典(dict)dict = {‘name’: ‘Zara’, ‘age’: 7, ‘class’: ‘First’}1.1 字典——字符串返回:print type(str(dict)), str(dict)11.2 字典——元组返回:(‘age’, ‘na...
2018-06-13 14:06:42 4262 1
原创 python virtualenv 虚拟环境的配置
# 准备工作1.安装python3apt-get install python32.安装pip3apt-get install python3-pip3.为python3添加包sudo pip3 install packagename# 1. sudo pip3 install virtualenv# 2. 创建python3的虚拟环境virtualenv -p /usr/bin/python3 ...
2018-06-12 11:59:26 565
原创 遍历当前路径下的文件夹进行压缩
#!/bin/bashfunction getdir(){ for element in `ls $1` do dir_or_file=$1"/"$element if [ -d $dir_or_file ]; # -d 文件夹判断 then echo "dir == $dir_or_file" # getdir $dir_or...
2018-06-08 11:36:32 1459
原创 一个scala工程的父子工程pom文件,仅供scala IDEA使用
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.x...
2018-06-08 10:46:15 1465
原创 ansible 实用技巧 批量查看各个节点的其他用户的定时任务,以及批量拷贝文件
如何以root用户批量查看各个节点的其他用户的定时任务,在集群运维中很常用:ansible all -m shell -a " su hdfs -c 'crontab -l ' " 此外从当前结点批量拷贝到各个节点文件 :ansible hbase -m copy -a "src=/data/download/add_sit_hosts.sh backup=yes dest=/data/tmp"...
2018-06-08 09:55:15 1732
原创 GCViewer 使用
[GCViewer](https://github.com/chewiebug/GCViewer) 是一款开源的GC日志分析工具。项目的 GitHub 主页对各个指标提供了完整的描述信息你需要安装了JDK或者Java. 解压之后, 然后双击点击 start.cmd当然, 直接在命令行执行Java命令也是可以的:java -jar gcviewer_1.3.4.jar gc.log或者java -...
2018-06-06 17:59:20 4305
原创 Ubuntu16.04 OpenCV3.4.1 及扩展模块环境搭建 with python3.5
第二次编译opencv了,还是记录下吧准备python3sudo apt-get install python2.7-dev python3.5-devPython 3.5.2 (default, Nov 23 2017, 16:37:01) [GCC 5.4.0 20160609] on linuxType "help", "copyright", "credits" or "license" ...
2018-06-06 14:30:24 774
转载 ubuntu挂载新硬盘的方法
#查看硬盘列表 sudo fdisk -l为新硬盘添加分区sudo fdisk /dev/sdb n:添加新分区 p:使用主分区 l:主分区编号为1,这样创建的分区为sdb1格式化新分区sudo mkfs ext4 /dev/sdb1 #使用ext4格式化sdb1分区随意创建一个文件夹,将新分区挂载上去sudo mkdir /disk2 sudo mount /dev/sdb1 /disk2 #...
2018-06-06 14:17:14 430
原创 ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory解决方案
>>> import tensorflow as tfTraceback (most recent call last): File "/usr/local/lib/python3.5/dist-packages/tensorflow/python/pywrap_tensorflow.py", line 58, in <module> from tensorf...
2018-06-05 17:25:03 3423 1
原创 Exception in thread "main" org.apache.hadoop.mapred.InvalidJobConfException: Output directory not se
Exception in thread &quot;main&quot; org.apache.hadoop.mapred.InvalidJobConfException: Output directory not se当从SparkSql得到的dataFrame,映射成RDD之后向hbase中直接保存数据的时候报错:Exception in thread "main" org.a...
2018-06-04 14:47:32 5087 1
原创 shell定时删除spark的applicationHistory历史文件
删除很简单,但是不能删除一些正在运行的程序的日志,尤其是spark streaming 的日志文件,一旦删除无法再生,以后想查日志都难.下面的脚本实现删除一个月之前的spark application的历史文件,记录下,大伙可以参考修改使用.#! /bash # delete 30 day's before spark history logs ######################...
2018-06-01 15:35:59 3969 1
useragent解析逻辑&手机品牌匹配.txt
2021-11-22
shakespeare.json&logs;.jsonl.gz&accounts;.zip
2018-01-10
kafka-manager 1.3.3.15
2018-01-08
百度网盘 数据仓库工具箱 维度建模权威指南 第3版 全
2017-10-16
数据仓库工具箱 维度建模权威指南 第3版
2017-10-16
IDEA 创建scala工程并打指定的依赖包
2017-08-11
hbase自定义Comparator进行数值比较
2016-11-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人