何安忆、-CSDN博客

原创 JanusGraph API连接server

maven依赖  <dependency> <groupId>org.janusgraph</groupId> <artifactId>janusgraph-all</artifactId> <version>0.3.3</version> </dependency> 或者

2021-09-17 16:55:08 774

客户端创建图结构和索引一、Schema创建 1.gremlin客户端创建 cd /opt/janusgraph/janusgraph-0.3.3 #启动客户端 ./bin/gremlin.sh #获取链接 JanusGraphFactory.open('conf/janusgraph-hbase-es.properties') #创建顶点标签，相当于顶点的类型，可以创建多种 mgmt = graph.openManagement() mgmt.makeVertexLabel('event_node')

2021-09-17 16:02:13 975

原创 JanusGraph单机部署

一、安装包下载下载地址：https://github.com/JanusGraph/janusgraph/releases/ 选择对应Hbase版本下载（公司Hbase版本1.4.11，我选择了0.3.3版本）注：高版本客户端连接低版本Hbase会报错，报错会详细再说二、上传至服务器上传到要部署服务的机器三、文件解压 mkdir /opt/janusgraph/ mv ~/wangtianyu03/janusgraph-0.3.3.tar.gz ../opt/janusgraph/ cd /o

2021-09-17 14:19:30 1163

原创 Spark本地调试报错

Spark本地调试报错 1.错误日志 (1) Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/SparkConf (2) Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SQLContext 2.解决方案查看maven (或者sbt)的配置文件，将<scope>标签注释掉,或者修

2021-04-23 10:45:27 527

原创 Spark学习——累加器(Accumulator)

累加器主要用于多个节点对同一变量进行操作，可以在executor端使用driver端定义的变量；但是executor并不能读取累加器的值。累加器的类型 1.Accumulator[Int] 2.Accumulator[Double] 3.Accumulator[Long]等自定义累加器 1.spark1 只需要继承AccumulatorParam，并重写 addInPlace（）//累加操作 zero（）//默认值下面是自定义String类型的累加器（scala版本），代码如下： obje

2020-05-14 11:50:12 952

原创 HIVE更改默认分隔符

大家都知道，hive是通过映射hdfs上的结构化文件的数据库表。默认的分割符如下分隔符描述 \n 行分隔符 ^A 字段分隔符 \001 ^B array、struct的元素间的分隔符，map的键值对与键值对间分隔符 \002 ^C map中键与值之间的分隔符\003 一、建表时指定 CREATE EXTERNAL TABLE `dw_ads.ads_te...

2019-07-16 15:32:21 4759

原创 KUDU学习笔记（三）

遇到的一些问题： 1. impala上创建kudu内部表在impala客户端上查看表明为kudutable，但在kudu上表名却是impala::database.kudutable 2.impala和kudu的timestamp 在impala上的timestamp是不同的，impala的精确到秒，kudu则精确到毫秒所以在impala映射kudu表是timestamnp类型的字段无法正常使...

2019-07-02 15:36:44 2142

原创 push to origin/master was rejected 解决方案

idea上push代码，提示： push to origin/master war rejected"。 1.切换到自己项目所在的目录打开git bash 2.依次执行以下命令 git pull git pull origin master git pull origin master --allow-unrelated-histories 3.idea上重新push，ok ...

2019-04-29 17:34:51 202

原创 KUDU学习笔记（二）

存储架构 Kudu的存储是将一个Table 拆分成多个Tableat进行存储的。当然不是指像Hbase一样，当一个Region数据量达到一定大小后进行动态的拆分。Kudu在建表时需要事先制定分区数量。可以通过Range或Hash的方式来进行分区，分多少个区就存在多少个Tablet。需要注意的是这两种分区方式只能通过主键来进行操作，Range只能根据单个主键进行分区。Hash则可以根据多个主键进行分...

2019-04-25 20:53:00 585

原创 KUDU学习笔记（一）

开发背景

2019-04-25 19:22:37 734

原创 sqoop报错总结

缺少MYSQL JDBC驱动 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: Could not load db driver class: com.mysql.jdbc.Driver java.lang.RuntimeException: Could not load db driver ...

2019-04-25 16:01:54 1684

原创 Hive进行MR操作时只能启动一次客户端操作一次

问题描述：今天在Hive在进行插入操作时，只能插入一次，第二次就会报错；每次启动客户端就只能有一次MR操作，报错如下：根据报错提示为 yarn.resourcemanager.zk-address。参数为空查看yarn-site.xml 文件并不为空。查看版本为Hadoop3.2+zookeeper3.4.13+hive3.1.1 查看Hadoop官方文档发现Hadoop3。yarn...

2019-04-12 18:48:01 387

原创使用Sqoop将Mysql数据导入Hive踩坑

背景：由于公司这个项目存在阿里云上，不能由DBA来维护，所以想要把数据从Mysql抽取到Hive上就需要我们自己来动手。。。数据量不是很大，但是分了巨多的库；需要导入的只有7张表，但是大概有94个库，每个库下边都有这七张表。初步设计方案是在把Mysql不同数据库的数据存放在Hive表不同的分区，就是一张hive表大概有90多个分区。最初想法： 1.先用sqoop复制表结构； 2.循环数据库...

2019-04-12 17:25:54 3004

weixin_39347555的博客

原创 spark读取es数据