自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 python定义hive udf函数

UDF + PYTHON 问题1:报错Cannot run program “python”: error=2, No such file or dictory 解决: hadoop_env ,yarn-env.sh ,hive-env中加入python环境变量: export PYTHON_HO...

2020-02-16 23:15:33 47 0

原创 hue4.3 + cnetOS7 安装与配置

1 下载包:hue-4.3.0.tgz 并解压/opt/hue 2 安装依赖:需要联网虚拟机需要配置nat 详情参考 yum -y install ant yum -y install asciidoc yum -y install cyrus-sasl-devel yum -y ins...

2018-11-28 01:20:58 509 0

原创 hive 2.3.4安装报错问题

问题1 报错: schematool -dbType mysql -initSchema 时报错: Schema initialization FAILED! Metastore state would be inconsistent !! 问题分析: 由日志分析 Metastore conn...

2018-11-27 23:45:52 314 0

原创 启动django时报错:django.db.utils.InternalError: (1524, "Plugin 'XXXXX' is not loaded)

启动django时报错:django.db.utils.InternalError: (1524, "Plugin ‘XXXXX’ is not loaded)@TOC 启动django时报错:django.db.utils.InternalError: (1524, "Plu...

2018-11-24 00:39:36 972 0

原创 ElasticSearch 5.0.0 安装部署常见错误或问题

ElasticSearch 5.0.0 安装部署常见错误或问题 问题一: [2016-11-06T16:27:21,712][WARN ][o.e.b.JNANatives ] unable to install syscall filter: Java.lang.Unsupported...

2018-02-03 15:03:03 197 0

转载 markdown的用法

欢迎使用Markdown编辑器写博客 本Markdown编辑器使用StackEdit修改而来,用它写博客,将会带来全新的体验哦: Markdown和扩展Markdown简洁的语法 代码块高亮 图片链接和图片上传 LaTex数学公式 UML序列图和流程图 离线写博客 导入导出Markdown文...

2018-01-06 12:37:48 193 0

原创 spark-streaming的wordcount程序(python 累加)

代码:''' spark-streaming wordcount程序 author:殷雄 ''' import os import sys os.environ['SPARK_HOME'] = "/opt/s...

2018-01-04 01:07:31 740 0

原创 连接远程linux spark 配置windows 下pycharm开发环境

对不于不习惯在linux 操作的同学,往往想在windows 环境下编辑代码,然后利用远程linux 服务器的spark群集来提交任务,下面提供一个可行的方案 1 、设置环境变量 vim /etc/profile 添加: export PYTHONPATH=$SPARK_HOME/pyth...

2018-01-03 00:26:29 1441 0

原创 centOS 安装NC 包

1 下载nc rpm 包下载地址:http://rpmfind.net/linux/rpm2html/search.php?query=nc2 找到对应的操作系统的NC包如:nc-1.84-24.el6.x86_64.rpm 3 上传到操作系统4 执行安装:rpm -ivh nc-1.84-24...

2018-01-02 22:34:17 3554 0

原创 用python 实现各类数学距离

1 、实现欧氏距离import numpy as np import matha = np.mat([1,2,3]) b = np.mat([4,7,5])ed = np.sqrt((a-b) * (a-b).T) ##实现欧氏距离2、实现曼哈顿距离mht = np.sum(np.abs(a-b)...

2017-11-27 14:40:03 249 0

原创 pyspark RDD 自定义排序(python)

问题:现有数据 data = ((‘crystal’,90,22),(‘crystal1’,100,28),(‘crystal3’,100,22)) 现在对data 进行排序 排序规则: 1 按元组中的第二个字段排序 2 第二个字段相等的话,按第三个字段排序实现思路:定义...

2017-11-09 01:01:24 3364 0

原创 spark sql 入门操作

aggregate 聚合 sc = SparkContext(conf = conf)l1 = [1,2,3,4,5,6,7,8,9] rdd1 = sc.parallelize(l1,2)rdd1.aggregate(8,max,lambda a,b:a+b) ##结果25 rdd2 = sc....

2017-11-07 20:06:42 353 0

原创 pyspark aggregate函数使用问题(aggregate重写,aggregate中的函数参数限制)

代码 : from pyspark import SparkContext, SparkConf from functools import reduce conf = SparkConf().setAppName('myFirstAPP').setMaster(&#...

2017-11-07 14:32:53 667 1

原创 spark RDD算子学习(基本命令)

1、进入spark 导入包对象 from pyspark import SparkContext, SparkConf 初始化对象 conf = SparkConf().setAppName(appName).setMaster(master) sc = SparkContext(...

2017-11-06 15:33:21 499 0

原创 linux 下安装python cx_Oracle 包

cx_Oracle安装需要依赖oracle客户端的一些包, 所以我们经常安装cx_Oracle之前,而不得不先安装oracle客户端 但是cx_Oracle依赖的东西并不多,感觉有点得不偿失,所以下面给出一种解决方法能简单很多。先下载instantclient-basic-linux.x64-...

2017-11-01 20:18:17 1022 0

原创 anaconda 在linux(centos7) 下的安装(虚拟机离线情况下)

1 软件下载: anaconda: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ bzip2: http://www.bzip.org/downloads.html (如果linux 已经安装bzip2,则不用安装 ) 2安装1 安...

2017-10-28 00:27:10 2794 0

原创 cx_Oracle 报错:cx_Oracle.DatabaseError: DPI-1050: Oracle Client library must be at version 11.2

解决:从 https://pypi.python.org/pypi/cx_Oracle/5.3 下载低版本cx_Oracle版本 我是下载cx_Oracle-5.3-11g.win32-py3.6.exe 直接安装 就ok了

2017-10-26 17:29:55 13913 1

原创 python 多进程详解

众所周知,Python 因为GIL的存在,不能很好的利用cpu多核的优势,所以当我们在处理CPU计算型的任务的时候,我们要应该使用多线程模块multiprocessing ,下面将深入multiprocessing 模块进行介绍 1 multiprocessing 模块的基本用法示例:# -*- ...

2017-10-26 17:27:00 407 0

原创 spark 集群启动后,worker 节点worker 进程一段时间后自动结束

1 启动环境: 启动hdfs: ./sbin/start-dfs.sh (hadoop 目录) 启动spark集群:./sbin/start-all.sh (在spark目录下) 检查是否启动:查看各节点折datanode Worker 进程是否启动了 2 遇到的问题:各节点中的worker进程启...

2017-10-19 00:47:15 2092 0

原创 用python 实现链表(实现__getitem__,__set__,__len__ 魔法方法)

''' 用python 实现数据结构--链表的实现 ''' class LinkListException(Exception): def __init__(self,ex_info): self.info = e...

2017-09-18 19:28:59 487 0

原创 win10中python 3.5 ,Django 1.11 后台admin无法加载CSS等样式

1 修改注册表\HKEY_CLASSES_ROOT.css的Content Type 为text/css,2 找到django包中的base.html 一般在以下目录python\Lib\site-packages\django\contrib\admin\templates\admin...

2017-09-10 15:35:49 666 0

原创 django中创建一个Model

step1创建一个应用(python manage.py startapp books) 这里创建一个叫books应用 ,然后在settings中的INSTALLED_APPS参数中加上应用,如下:INSTALLED_APPS = [ 'django.contrib.admin...

2017-09-10 15:29:39 647 0

原创 django 1.11 报表:django.template.exceptions.TemplateDoesNotExist:

解决方法: 在settings.py 中TEMPLATES 参数 dirs加入设置:os.path.join(BASE_DIR, ‘templates’).replace(‘\’, ‘/’) TEMPLATES = [ { ‘BACKEND’: ‘django....

2017-08-24 15:59:24 1001 0

原创 django 报错:ValueError: The database backend does not accept 0 as a value for AutoField.

错误原因: 在创建一个model时,其中一个字段你用了别一个model的做为外键,并且给这个外键设置了一个默认值 ,而这个默认值不适用于键model中自动创建再找一下报错的脚本: Applying oiarpt.0004_auto_20170822_1419... OK Applying ...

2017-08-24 14:10:09 5065 0

原创 django中创建一个Model

step1 创建一个应用(python manage.py startapp books) 这里创建一个叫books应用 ,然后在settings中的INSTALLED_APPS参数中加上应用,如下: INSTALLED_APPS = [ 'django.contrib...

2017-08-22 14:27:34 382 0

原创 pycharm 每日提示

打开每日提示: 工具栏:help –> tip of the day 提示1:一个窗口打开多个项目 PyCharm can work with several projects in one window. To open a project in the same window wi...

2017-08-21 16:26:45 2280 0

原创 快速排序算法(C语言实现)

先看一下快速排序算法(C语言实现 )#include <stdio.h> void quicksort(int array[], int min, int max); int partition(int array[], int min, int max) { int p; ...

2017-08-11 16:49:43 4559 0

原创 python 用解决约瑟夫问题

# -*- coding: utf-8 -*- ''' Created on 2017年8月8日 @author: Administrator 用python实现循环链表,解决约瑟夫问题 ''' class Person(): d...

2017-08-10 22:28:26 1213 0

原创 数据仓库中的拉链表(hive实现)

前言本文将会谈一谈在数据仓库中拉链表相关的内容,包括它的原理、设计、以及在我们大数据场景下的实现方式。全文由下面几个部分组成: 先分享一下拉链表的用途、什么是拉链表。 通过一些小的使用场景来对拉链表做近一步的阐释,以及拉链表和常用的切片表的区别。 举一个具体的应用场景,来设计并实现一份拉链表...

2017-08-10 18:24:47 13297 6

原创 python socket send 函数 报错:TypeError: a bytes-like object is required, not 'str'

# -*- coding: utf-8 -*- ''' Created on 2017年7月28日 @author inx 实现中基本socket程序 ''' import socket host = '192.168.0.1...

2017-07-29 00:52:02 3389 0

原创 python 3.6,django 1.11 配置mysql数据库

1 安装pymysql: pip installl pymysqlpython 3.6 中没有MySQLdb ,换成了pymysql2 配置驱动:pymysql.install_as_MySQLdb()在项目的init文件中导入import pymysql pymysql.install_as_M...

2017-07-26 16:37:26 4186 0

原创 django template 基础(二)(在视图中使用模板)

在视图中使用模板2前序在学习了模板系统的基础之后,现在让我们使用相关知识来创建视图。 先看一下没有使用template的视图代码from django.http import HttpResponse import datetimedef current_datetime(request): ...

2017-07-25 15:14:25 1080 1

原创 Django 中遇到的问题(1)TypeError: context must be a dict rather than Context.

1 . TypeError: context must be a dict rather than Context.翻译:上下文必须是一个字段,而不是一个Context实例对象 Django版本 1.11 报错的代码来自views.py:def current_datetime(request...

2017-07-24 21:29:19 17114 4

原创 C语言实现顺序链表

1 概念:指用一个连续的地址来存储数据元素。结构类似数组2 设计与实现:a 设计要素:1)插入元素算法 判断线性表是否合法 判断插入位置是否合法 把最后一个元素到插入位置的元素后移一个位置 将新元素插入后线性表长度加1 b 实现代码:#include "stdio.h" #in...

2017-07-24 17:16:08 501 0

原创 python format 用法详解

前序:format是python2.6新增的一个格式化字符串的方法,相对于老版的%格式方法,它有很多优点。 不需要理会数据类型的问题,在%方法中%s只能替代字符串类型 单个参数可以多次输出,参数顺序可以不相同 填充方式十分灵活,对齐方式十分强大 官方推荐用的方式,%方式将会在后面的版本被淘汰

2017-07-24 17:05:47 26184 6

原创 django template 基础(模板对象(Template),上下文对象(Context))

django template 基础(模板对象(Template),上下文对象(Context)) 1 启动python环境 2 创建Template,Context对象 3 context 上下文

2017-07-20 18:29:28 1022 0

转载 Windows安装MySQL5.7.17

Windows安装MySQL5.7.17 1. 在MySQL官网 http://dev.mysql.com/downloads/mysql/ 上面下载ZIP安装包(第二个:Windows (x86, 64-bit), ZIP Archive)。   2. 下载完成后解压,将其放到想要...

2017-07-20 00:09:00 369 0

原创 从mysql获取表转化为hive建表语句(python语言)

脚本可以直接从mysql 数据库里获取表信息,直接生成hive建表语句''' Created on 2017年6月29日 @author: 80002419 ''' import pymysql import re def ge...

2017-07-13 13:57:48 3136 0

原创 python中多层嵌套列表的拆分

场景:有一个多层嵌套的列表如:[[23],[3,3],[22,22],1,123,[[123,a],2]] 拆分成: def splitlist(list):     '''         现有一个列表,里面元素包括 数字,字母,列表,字典等元素,现在要将字典...

2017-06-27 23:09:04 11923 1

原创 sqoop 的用法

1.概述 本文档主要对SQOOP的使用进行了说明,参考内容主要来自于Cloudera SQOOP的官方文档。为了用中文更清楚明白地描述各参数的使用含义,本文档几乎所有参数使用说明都经过了我的实际验证而得到。 2.codegen 将关系数据库表映射为一个Java文件、Java class类、以及相...

2017-06-23 16:37:23 636 0

提示
确定要删除当前文章?
取消 删除