maketubu7-CSDN博客

原创 linux 上python集成cx_Oracle流程

1、所需要的文件1、https://www.oracle.com/database/technologies/instant-client/downloads.html这是oracle迷你客户端的下载,根据你的oracle版本和服务器的版本进行选择，这里需要两个文件 instantclient-basic-linux.x64-21.1.0.0.0.zip instantclient-sdk-linux.x64-21.1.0.0.0.zip2、https://pypi.org/sea

2020-12-17 15:27:52 652

原创多个jar包合成一个jar包

1、到所有合并的jar下面，新建一个文件夹new_jar2、cd new_jar，进入到新的文件夹 jar -xvf ../*.jar3、jar - cvfM all_jars.jar ./* 将所有解压的文件，重新打成一个jar包

2020-05-29 10:29:08 714

原创 pyspark 与es的交互

# Author:Dengwenxing# -*- coding: utf-8 -*-# @Time :2019/12/30 15:09# @Site :# @fILE : esReader.py# @Software :import sys, osfrom pyspark import SparkConffrom pyspark.sql import SparkSessionfrom pyspark.sql import functions as funfr.

2020-05-25 18:45:17 1933

原创 pyspark集群环境中jdk版本不兼容，python无相应模块的包的解决办法

问题：在某些情况下，我们会用到其他厂商的大数据平台，而我们是没有相关管理权限的，但是集群和我们已有的代码所需要的环境存在差异，所以我们要向集群设置我们自己的运行环境的参数等，主要解决方案如下1、对于pyspark，首先我们需要一个我们的相关的所有包的python虚拟环境，这里推荐anaconda的虚拟环境，里面包含很多科学计算的模块便于数据分析使用，在任意一台能联网的机器上创建一个con...

2020-05-08 14:54:08 1454

原创 pyspark 与hbase的读写

在读取hbase的时候，由于hbase存储的是16进制的字节码，我这里用了各种方法，都无法在转换为df的时候，将其转换为中文，看了很多方法，各种decode, encode都没有找到合适的方法，如果有哪位同学，在看到这篇文章并解决了这个问题，麻烦告知我一声，谢谢读取hbase 需将hbase下lib的几个常用包，软连接到spark的jars目录下出现无法读取hive.sql的问题，将hi...

2019-12-31 17:17:09 1515

原创 spark 读写hbase

测试代码package make.zhangsheniMainimport make.bean.CaseClass.userimport make.service.HbaseServiceimport make.tools.PropertiesToolimport org.apache.hadoop.hbase.client.{Put, Result}import org.apa...

2019-11-06 16:37:15 217

原创 spark 读写 es

测试代码：package make.zhangsheniMain/** * Hello world! * */import make.bean.CaseClass.{people, people_id}import make.service.EsServiceimport make.tools.{DateUtils, PropertiesTool}import or...

2019-11-06 16:33:43 684

原创 shell 日期格式化

now_day=`date -d today +"%Y-%m-%d %T"`now_day=`date -d yesterday +"%Y-%m-%d %T"`cp=`date -d today +"%Y%m%d00"`

2019-04-29 15:30:22 1110

原创 jyputer notebook 与pyspark在本地windows的环境配置

1、下载anacond并安装，可以选择自动配置环境变量，也可以后面手动配置环境变量2、http://spark.apache.org/downloads.html下载spark的对应版本3、解压到一个指定的你想要存放的本地spark目录，自己创建，方便以后管理4、设置各种环境变量，如下这里 java scala 的环境配置不必要但是还是需要配置一下，特别注意这里的PYSP...

2019-04-12 20:08:47 666

原创记一次用pyspark 对地理数据的的索引距离判定

1、接到一次需求，需要对源手机的定位数据，来判定是否处于景区和商圈的范围内，来宏观统计消费流量2、最开始，正常的想法，我需要对每条数据的经纬度和列表的经纬度做一次距离判定，判断该手机定位是否是属于某一个地方，如果是则对其进行保留，不是进行过滤，但是由于数据量巨大，每天的数据量约为80亿条，及每一条数据的经纬度都要做130次经纬度的距离计算，可以想象这个计算量是非常巨大的，尝试跑了一下，但是非...

2019-04-12 18:03:43 1054

原创记一次pyspark 的一个报错处理

在运行PySpark程序的时候，报错为：PySpark error: AttributeError: 'NoneType' object has no attribute '_jvm'是因为定义了一个udf函数，在函数中使用abs()方法，于是就出现了这种情况查找原因发现是使用from pyspark.sql.functions import * 语句引入的时候，覆盖了abs()方法导致...

2019-03-30 16:54:27 675

原创 pyspark 对接kafka 写入hive

1、pyspark 对接kafka需要依赖一些jar包 kafka-0-8或者kafka-0-10的关于kafka版本的全部的包大概如下,反正如果jar包不全会有各种异常信息，到时候对应着补齐就行，注意自己的kafka和spark的版本 kafka_2.x-0.x.0.0.jar kafka-client-0.x.0.0.jar spark-sql-kafk...

2019-03-08 11:55:04 2481

原创 redis 安装和简单的命令

1、下载redis.4.0.12.tar.gz https://redis.io/download2、随便解压到哪里然后cd 到 src/ 目录下执行 make 等他编译完直接make install 会默认安装在 usr/local/bin 目录下，将五个而二进制文件复制到你想要的安装目录3、创建一个 conf文件夹 vim pid_6379.conf ...

2019-01-09 16:28:25 235

原创 es的坑记一次处理节点启动异常

1、本来按照往常的节奏，今天应该对图库的数据进行全量更新，但是下午悠哉来到办公室，他么的，我的spark任务怎么挂了，于是开始排查原因 2、发现日志报错，GraphFactory could not instatiate this Graph implementation ??? 于是想到是不是图库挂了，于是去尝试重启图数据库，特喵的还是报错具体是无法与一个节点进行通讯，这就...

2018-12-05 10:51:25 1546

原创 shell 以某个字符开头的判断

判断是否以v开头if [[$1 =~^v.* ]]; then commondelse commondfi

2018-11-06 20:30:13 26878

原创 jg的相关知识点

1、jg分为节点表，和边表，节点有自己的jid和相关属性字段，这个jid为全局唯一，每一个节点的jid都不一样2、边表会保存两个jid,一个start_jid,为起始节点，一个end_jid,为终止节点，还包括边的相关属性信息3、因为jg的数据是存入hbase中的，所以要对index即jid进行散列，防止热点一个hive到jg的数据写入和rowkey设计的案列# encod...

2018-10-30 10:56:48 822

原创初识mongodb

1、下载zip包解压，进入命令行2、show dbs 查看相关数据库，3、db.createCollection("maketubu", {capped:true, size:100000,autoIndexId:true,max:2000}) 创建集合capped:（可选）如果为 true，则创建固定集合。固定集合是指有着固定大小的集合，当达到最大值时，它会自动覆盖最早的文档...

2018-10-24 22:44:21 277

原创 pyspark 对RDD的相关api

1、aggregate，可以用来求平均值如下示例rdd2 = spark.sparkContext.parallelize([1,2,3,4,5,6,7,8,9,10])seqop = (lambda x,y: (x[0]+ y, x[1]+ 1)) #0+1 0+1 1+2 1+1 3+3 2+1cpmop= (lambda x,y: (x[0]+ y[0],...

2018-10-18 11:34:52 1380

原创工作中 pyspark的小知识点

1、df.na.fill({'字段名1':'default','字段名2':'default'}) 对空值进行替换2、df.dropDuplicaates() 去重根据字段名进行去重，空参为全部字段3、df.subtract(df1) 返回在当前df中出现，并且不在df1中出现的元素，不去重。4、print time.localtime([timestamp]) ...

2018-10-16 19:46:10 984

原创配置jupyter 虚拟机spark+python2.7.15

1、将默认的 phthon2.6.6 换成2.7.15 如下wget https://www.python.org/ftp/python/2.7.15/Python-2.7.15.tgztar -zxvf Python-2.7.15.tgzcd Python-2.7.15./configure --prefix=/usr/local/python2makemake ins...

2018-10-15 16:05:25 544

原创 python 身份证校验

国家校验码校验标准1、将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为：7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ；2、将这17位数字和系数相乘的结果相加；3、用加出来和除以11，看余数是多少；4、余数只可能有0 1 2 3 4 5 6 7 8 9 10这11个数字。其分别对应的最后一位身份证的号码为1 0 X 9 8 7 ...

2018-10-09 13:16:26 8414 2

原创 spark sql 的常用写法

import org.apache.spark.sql.{SaveMode, SparkSession}import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType}object taxi_csv { def main(args: Array[String]): Unit = { ...

2018-09-28 17:13:12 1571

转载 hadoop 参数调优及测试

hadoop参数优化#hadoop验证版本为2.6.4，其它版本酌情参考core-site.xml参数名默认值说明 hadoop.tmp.dir /tmp/hadoop-${user.name} hadoop中间临时文件最好单独指定目录，比如mr split信息，stag信息 io.file.buffer.size 4096 设置IO操作缓...

2018-08-23 11:19:35 969

转载 hadoop集群运维

（一）备份namenode的元数据namenode中的元数据非常重要，如丢失或者损坏，则整个系统无法使用。因此应该经常对元数据进行备份，最好是异地备份。1、将元数据复制到远程站点（1）以下代码将secondary namenode中的元数据复制到一个时间命名的目录下，然后通过scp命令远程发送到其它机器#!/bin/bashexport dirname=/mnt/tmphadoop/...

2018-08-23 10:12:44 1386

原创 kafka_2.11-0.10.2.1 的生产者消费者的示例（new producer api）

环境，以及单独的pom.xml文件环境：java 1.8 ，kafka_2.11-0.10.2.1pom.xml文件如下<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3....

2018-08-09 13:47:31 2088 2

原创 sparkstream 2.2.0 结合 kafka_2.10-0.10.2.1 的消费示例演示

今天讲了kafka和sparkstream的一个简单结合，试着在网上找了一个例子进行实现1、相关配置 spark2.2.0，scala2.11.8，kafka_2.10-0.10.2.1,jdk1.82、这里是自己的pom.xml文件如下<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://...

2018-08-08 19:14:26 1853

原创 spark2.2.0 kafka 0.10.2.1的createDirectStream第一次尝试

1、这里简单记录一下 kafka的简单操作命令创建Topic $ bin/kafka-topics.sh --create --topic make2 --zookeeper make.spark.com:2181/kafka_10 --replication-factor 3 --partitions 3 --config max.message.bytes=128000...

2018-08-07 23:44:13 958

转载 Spark Cache和Checkpoint功能

Cache 和 Checkpoint作为区别于 Hadoop 的一个重要 feature，cache 机制保证了需要访问重复数据的应用（如迭代型算法和交互式应用）可以运行的更快。与 Hadoop MapReduce job 不同的是 Spark 的逻辑/物理执行图可能很庞大，task 中 computing chain 可能会很长，计算某些 RDD 也可能会很耗时。这时，如果 task 中途运...

2018-08-06 10:16:54 1358 1

转载 spark 基本概念与入门

Spark集群一组计算机的集合，每个计算机节点作为独立的计算资源，又可以虚拟出多个具备计算能力的虚拟机，这些虚拟机是集群中的计算单元。Spark的核心模块专注于调度和管理虚拟机之上分布式计算任务的执行，集群中的计算资源则交给Cluster Manager这个角色来管理，Cluster Manager可以为自带的Standalone、或第三方的Yarn和Mesos。Cluster Mana...

2018-08-06 10:16:44 149

转载 spark 数据倾斜解决思路

数据倾斜调优- 绝大多数task执行得都非常快，但个别task执行极慢。比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时,这种情况很常见- 原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈，是我们写的业务代码造成的。这种情况比较少见数据倾斜发生的原因：在进行shuffle的时候，必须将各个节点上...

2018-08-06 10:16:29 195

转载 spark 的内存管理机制

1. 堆内和堆外内存规划作为一个 JVM 进程，Executor 的内存管理建立在 JVM 的内存管理之上，Spark 对 JVM 的堆内（On-heap）空间进行了更为详细的分配，以充分利用内存。同时，Spark 引入了堆外（Off-heap）内存，使之可以直接在工作节点的系统内存中开辟空间，进一步优化了内存的使用。图 1 . 堆内和堆外内存示意图1.1 堆内内存堆内内存的大...

2018-08-06 09:56:55 2997

转载 spark 性能调优高级篇数据倾斜，和shuffle调优

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候，我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜，此时Spark作业的性能会比期望差很多。数据倾斜调优，就是使用各种技术方案解决不同类型的数据倾斜问题，以保证...

2018-08-06 09:55:09 207

转载 spark 性能调优常见思路基础篇

前言在大数据计算领域，Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团•大众点评，已经有很多同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算作业的执行速度更...

2018-08-06 09:54:07 239

转载 spark 底层调度

Spark Scheduler内部原理讲解分布式运行框架Spark可以部署在多种资源管理平台，例如Yarn、Mesos等，Spark本身也实现了一个简易的资源管理机制，称之为Standalone模式。由于工作中接触较多的是Spark on Yarn，以下所述表示Spark on Yarn。Spark部署在Yarn上有两种运行模式，分别是client和cluster模式，它们的区别仅仅在于S...

2018-07-31 18:46:37 856

原创 spark RDD的底层原理、任务提交、资源调度等记录

开始在IDEA中编写代码（可以用spark实现原始的mapreduceSpark on windows local 异常信息： 1. 17/05/20 09:32:08 ERROR SparkContext: Error initializing SparkContext. org.apache.spark.SparkException: A master URL ...

2018-07-23 18:14:45 1761

原创 spark 提交任务到yarn上运行

1、在idea上先写好，自己的代码并进行测试，这里贴一个很简单的统计单词个数的代码package sparkimport org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]) { /...

2018-07-20 17:54:57 5334

转载大数据常用端口

Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口 8485 ： JournalNode 的RPC端口 8019 ： ZKFC端口 10020：historyserver端口Zo...

2018-07-19 14:39:51 983

原创 hive 修改元数据库对mysql的修改及权限设置

1、查看对应的权限（把表清空）select user,host from mysql.user;mysql> d.1';Query OK, 1 row affected (0.00 sec)elete from user where host='127.0.0mysql> delete from user where host='make.spark.com';Query OK, 2 ...

2018-07-10 22:49:22 1181

原创 flume 之监视日志数据抽出到hdfs上示例

今天学习了一个新的轻量级框架，就是一个的实时日志收集系统，由cloudera公司开发的框架下面贴上代码##对log的完成数据，进行数据抽取，并对文件夹下所有文件进行实时监视###define agenta3.sources = r3a3.channels = c3a3.sinks = k3#define sourcesa3.sources.r3.type = spooldira3...

2018-06-30 09:41:24 679

原创 flume导入日志数据之hive分区

1、环境配置，截图如下2、我们知道sink-hive官网上有一个分区的示例，我们看一下但是这个示例我没有看懂什么意思，所以作为小白的我，开始了另一种分区的方式2.1首先我们看看我们需要分区的日志文件的格式"27.38.5.159" "-" "31/Aug/2015:00:04:37 +0800" "GET /course/view.php?id=27 HTTP/1.1" "303" "440&quo

2018-06-29 18:43:34 4559 1

空空如也

空空如也