shell 日期格式化

now_day=`date -d today +"%Y-%m-%d %T"` now_day=`date -d yesterday +"%Y-%m-%d %T"` cp=`date -d today +"%Y%m%d00"`

2019-04-29 15:30:22

阅读数 141

评论数 0

jyputer notebook 与pyspark在本地windows的环境配置

1、下载anacond并安装,可以选择自动配置环境变量,也可以后面手动配置环境变量 2、http://spark.apache.org/downloads.html下载spark的对应版本 3、解压到一个指定的你想要存放的本地spark目录,自己创建,方便以后管理 4、设置各种环境变量,如下...

2019-04-12 20:08:47

阅读数 64

评论数 0

记一次用pyspark 对地理数据的的索引距离判定

1、接到一次需求,需要对源手机的定位数据,来判定是否处于景区和商圈的范围内,来宏观统计消费流量 2、最开始,正常的想法,我需要对每条数据的经纬度和列表的经纬度做一次距离判定,判断该手机定位是否是属于某一个地方,如果是则对其进行保留,不是进行过滤,但是由于数据量巨大,每天的数据量约为80亿条,及每...

2019-04-12 18:03:43

阅读数 99

评论数 0

记一次pyspark 的一个报错处理

在运行PySpark程序的时候,报错为:PySpark error: AttributeError: 'NoneType' object has no attribute '_jvm' 是因为定义了一个udf函数,在函数中使用abs()方法,于是就出现了这种情况 查找原因发现是使用from p...

2019-03-30 16:54:27

阅读数 47

评论数 0

pyspark 对接kafka 写入hive

1、pyspark 对接kafka需要依赖一些jar包 kafka-0-8或者kafka-0-10的关于kafka版本的全部的包 大概如下,反正如果jar包不全会有各种异常信息,到时候对应着补齐就行,注意自己的kafka和spark的版本 kafka_2.x-0.x.0.0.jar ...

2019-03-08 11:55:04

阅读数 299

评论数 0

redis 安装和简单的命令

1、下载redis.4.0.12.tar.gz     https://redis.io/download 2、随便解压到哪里  然后cd 到 src/ 目录下  执行 make 等他编译完   直接make install 会默认安装在 usr/local/bin 目录下,将五个而二进制文件 ...

2019-01-09 16:28:25

阅读数 53

评论数 0

es的坑 记一次处理节点启动异常

1、本来按照往常的节奏,今天应该对图库的数据进行全量更新,但是下午悠哉来到办公室,他么的,我的spark任务怎么挂了,于是开始排查原因   2、发现日志报错,GraphFactory could not instatiate this Graph implementation ???  于是想...

2018-12-05 10:51:25

阅读数 255

评论数 0

shell 以某个字符开头的判断

 判断是否以v开头 if [[$1 =~^v.* ]]; then     commond else     commond fi    

2018-11-06 20:30:13

阅读数 3195

评论数 0

jg的相关知识点

1、jg分为节点表,和边表,节点有自己的jid和相关属性字段,这个jid为全局唯一,每一个节点的jid都不一样 2、边表会保存两个jid,一个start_jid,为起始节点,一个end_jid,为终止节点,还包括边的相关属性信息 3、因为jg的数据是存入hbase中的,所以要对index即ji...

2018-10-30 10:56:48

阅读数 45

评论数 0

初识mongodb

1、下载zip包解压,进入命令行 2、show dbs  查看相关数据库, 3、db.createCollection("maketubu", {capped:true, size:100000,autoIndexId:true,max:2000})  创建...

2018-10-24 22:44:21

阅读数 40

评论数 0

pyspark 对RDD的相关api

1、aggregate,可以用来求平均值 如下示例 rdd2 = spark.sparkContext.parallelize([1,2,3,4,5,6,7,8,9,10]) seqop = (lambda x,y: (x[0]+ y, x[1]+ 1)) #0+1 0+...

2018-10-18 11:34:52

阅读数 298

评论数 0

工作中 pyspark的小知识点

1、df.na.fill({'字段名1':'default','字段名2':'default'})   对空值进行替换 2、df.dropDuplicaates()    去重根据字段名进行去重,空参为全部字段 3、df.subtract(df1)     返回在当前df中出现,并且不在df1...

2018-10-16 19:46:10

阅读数 187

评论数 0

配置jupyter 虚拟机spark+python2.7.15

1、将默认的 phthon2.6.6 换成2.7.15  如下 wget https://www.python.org/ftp/python/2.7.15/Python-2.7.15.tgz tar -zxvf Python-2.7.15.tgz cd Python-2.7.15 ./co...

2018-10-15 16:05:25

阅读数 78

评论数 0

python 身份证校验

国家校验码校验标准 1、将前面的身份证号码17位数分别乘以不同的系数。从第一位到第十七位的系数分别为:7 9 10 5 8 4 2 1 6 3 7 9 10 5 8 4 2 ; 2、将这17位数字和系数相乘的结果相加; 3、用加出来和除以11,看余数是多少; 4、余数只可能有0 1 2 3...

2018-10-09 13:16:26

阅读数 1393

评论数 1

spark sql 的常用写法

import org.apache.spark.sql.{SaveMode, SparkSession} import org.apache.spark.sql.types.{LongType, StringType, StructField, StructType} object taxi_...

2018-09-28 17:13:12

阅读数 198

评论数 0

hadoop 参数调优及测试

hadoop参数优化# hadoop验证版本为2.6.4,其它版本酌情参考 core-site.xml 参数名 默认值 说明 hadoop.tmp.dir /tmp/hadoop-${user.name} hadoop中间临时文件最好单独指定目录,比如mr spli...

2018-08-23 11:19:35

阅读数 339

评论数 0

hadoop集群运维

(一)备份namenode的元数据 namenode中的元数据非常重要,如丢失或者损坏,则整个系统无法使用。因此应该经常对元数据进行备份,最好是异地备份。 1、将元数据复制到远程站点 (1)以下代码将secondary namenode中的元数据复制到一个时间命名的目录下,然后通过scp命令远程发...

2018-08-23 10:12:44

阅读数 554

评论数 0

kafka_2.11-0.10.2.1 的生产者 消费者的示例(new producer api)

环境,以及单独的pom.xml文件 环境:java 1.8 ,kafka_2.11-0.10.2.1 pom.xml文件如下 <?xml version="1.0" encoding="UTF-8&quot...

2018-08-09 13:47:31

阅读数 967

评论数 2

sparkstream 2.2.0 结合 kafka_2.10-0.10.2.1 的消费示例演示

今天讲了kafka和sparkstream的一个简单结合,试着在网上找了一个例子进行实现 1、相关配置 spark2.2.0,scala2.11.8,kafka_2.10-0.10.2.1,jdk1.8 2、这里是自己的pom.xml文件  如下 <project x...

2018-08-08 19:14:26

阅读数 807

评论数 0

spark2.2.0 kafka 0.10.2.1的createDirectStream第一次尝试

1、这里简单记录一下 kafka的简单操作命令      创建Topic      $ bin/kafka-topics.sh --create --topic make2 --zookeeper make.spark.com:2181/kafka_10 --replication-factor...

2018-08-07 23:44:13

阅读数 415

评论数 0

提示
确定要删除当前文章?
取消 删除