- 博客(369)
- 资源 (4)
- 收藏
- 关注
原创 2021-05-26
hive报错整理之Malformed ORC file 、Invalid postscript.将本地文件的数据加载到hive的ORC格式表时,出现以下报错:Diagnostic Messages for this Task:Error: java.io.IOException: java.lang.reflect.InvocationTargetException at org.apache.hadoop.hive.io.HiveIOExceptionHandlerChain.h...
2021-05-26 16:17:54 406
原创 Error: A JNI error has occurred, please check your installation and try again
1、先检查是否是java -version与javac -version一致2、IDEA的maven依赖profiles 是否对add-dependencies-for-IDEA选中对勾
2020-08-16 21:15:15 522 1
转载 Phoenix创建二级索引
为什么需要Secondary Index对于HBase而言,如果想精确地定位到某行记录,唯一的办法是通过rowkey来查询。如果不通过rowkey来查找数据,就必须逐行地比较每一列的值,即全表扫瞄。对于较大的表,全表扫瞄的代价是不可接受的。但是,很多情况下,需要从多个角度查询数据。例如,在定位某个人的时候,可以通过姓名、身份证号、学籍号等不同的角度来查询,要想把这么多角度的数据都放到row...
2020-04-26 18:28:48 787
转载 Hive调优策略——并行执行、严格模式、JVM重用、压缩、设置mapper和reducer个数 & 小文件合并
目录1. 并行执行2. 严格模式3. JVM重用4. 压缩(1)开启Map输出阶段压缩(snappy压缩)(2)开启Reduce输出阶段压缩(snappy压缩)5. 合理设置Map和Reduce个数(1)小文件过多,减少map数(2)小文件进行合并(3)文件比较大、文件处理逻辑复杂,增大map数(4)合理设置Reduce个数(1)开启Map输出阶段压...
2020-04-24 12:18:27 577 1
转载 快速排序(java实现)
高快省的排序算法有没有既不浪费空间又可以快一点的排序算法呢?那就是“快速排序”啦!光听这个名字是不是就觉得很高端呢。假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数(不要被这个名词吓到了,就是一个用来参照的数,待会你就知道它用来做啥的了)。为了方便,就让第一个数6作为基准数吧。接下来,需要将这个序列中所有比基准数大的数放...
2020-04-12 11:56:12 208
转载 NLP处理-Spark中的HashTF与CountVectorizer模型
http://spark.apache.org/docs/latest/ml-features.html#tf-idfimport org.apache.spark.ml.feature._import org.apache.spark.ml.linalg.SparseVectorimport org.apache.spark.sql.SparkSessionimport scala...
2020-04-01 11:51:49 351
转载 spark 密集向量和稀疏向量
1、概念稀疏向量和密集向量都是向量的表示方法 密集向量和稀疏向量的区别: 密集向量的值就是一个普通的Double数组 而稀疏向量由两个并列的 数组indices和values组成 例如:向量(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0,3.0], 用稀疏格式表示为(4,[0,2,3],[1.0,1.0,3.0]) 第一个4表示向量的长度(元素个数),[0,2,3]...
2020-04-01 11:50:42 722
转载 Spark:基于jieba分词的特征向量提取
基于jieba分词的对计算机课程名的特征向量提取首先引入包:import org.apache.spark.sql.{DataFrame, SparkSession}//spark入口,DataFrame操作需要用到的包import java.nio.file.{Path, Paths}//加入自定义词库时路径需要的包import com.huaban.analysis.jieba...
2020-03-26 21:40:51 1082
转载 结巴分词5--关键词抽取
作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007欢迎转载,也请保留这段声明。谢谢!1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些,关键词还可以在文本聚类、分类、自动摘要...
2020-03-26 14:42:54 441
原创 linux 命令批量修改文件内容中某字段
测试文件的内容复制多个测试文件(批量修改)一个四个测试文件,看效果就行两种方法修改1.perl命令替换格式: perl -p -i -e "s/修改的字段/新字段/g" 文件名(别的路径下需加好路径)perl -p -i -e "s/123/888/g" test1.txt test2.txt说明:将test1.txt和test2.txt中的123替换...
2020-03-18 10:47:21 1991
转载 hive按当天日期建立分区表 | 动态往日期分区插入数据
hive建立分区表,以当天日期(“2014-08-15”)作为分区依据,hql如下:CREATE EXTERNAL TABLE IF NOT EXISTS product_sell(category_id BIGINT,province_id BIGINT,product_id BIGINT,price DOUBLE,sell_num BIGINT)PARTITIONED BY ...
2020-03-10 16:05:14 2964
原创 es+spark 读取es中的自定义格式日期时报异常
问题描述:spark读取指定索引/类型的数据,其中有自定义格式的日期数据,读取该日期时报异常User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: ...
2020-03-05 20:29:21 2307
原创 elasticsearch查询某个字段为空值的结果
传统sql查询返回某个字段为空值的结果写法是select * from 表名 where 字段名 is null在elasticsearch中查询语句为GET index/type/_search{ "query": { "bool": { "must_not": { "exists": { "field": "字段名"...
2020-03-03 09:45:03 9167 1
原创 Elasticsearch出现circuit_breaking_exception异常
1. 产生Data too large异常异常如下:CircuitBreakingException[[FIELDDATA] Data too large, data for [proccessDate] would be larger than limit of [xxxgb]经排查,原来是ES默认的缓存设置让缓存区只进不出引起的,具体分析一下。2. ES缓存区概述首先简单...
2020-02-14 21:25:27 14531 1
原创 error:Elasticsearch exception [type=illegal_argument_exception, reason=Limit of total fields [1000]
说的就是一个索引里面的fiedls的个数超过1000了,估计这个默认值是1000,这个时候,调大这个值,就能处理这个问题啦。上面的图就是 使用 curl 命令来处理这个问题。上面的图就是 使用 curl 命令来处理这个问题。curl -XPUT http://192.168.1.136:9200/出问题的那个索引名称/_settings -d '{"index.mappin...
2020-02-14 10:17:49 6688 1
原创 TiDB 2.0 kill会话
运行环境:在tiDB中国目前的版本家索引很费时间,对磁盘的IO影响较大,若在加索引的时候可以考虑kill掉会话。待空闲时间在加索引。1.准备单表1000万条记录:sysbench2.执行添加字段和索引的语句:alter table benchmark1.sbtest1 add column datetime NOT NULL DEFAULT CURRENT_TIMESTAMP...
2020-01-07 15:28:17 896
原创 Scala操作MySQL数据库
一、工具IDEA+MAVEN二、Pom文件添加依赖1、更改成自己的scala版本<properties> <scala.version>2.11.8</scala.version> </properties>2、添加驱动依赖<dependency> <groupId>mysql<...
2019-12-30 10:22:52 504
原创 Spark写入elasticsearch报错Could not write all entries for bulk operation以及Connection error
问题:org.elasticsearch.hadoop.EsHadoopException: Could not write all entries for bulk operation以及Connection error解决方法:添加参数val conf = new SparkConf();conf.set("es.nodes", elasticsearch_nodes);con...
2019-12-10 15:59:31 1785
原创 Postman 使用方法详解-终极教程最全
一、Postman背景介绍用户在开发或者调试网络程序或者是网页B/S模式的程序的时候是需要一些方法来跟踪网页请求的,用户可以使用一些网络的监视工具比如著名的Firebug等网页调试工具。今天给大家介绍的这款网页调试工具不仅可以调试简单的css、html、脚本等简单的网页基本信息,它还可以发送几乎所有类型的HTTP请求!Postman在发送网络HTTP请求方面可以说是Chrome插件类产品中的代...
2019-11-19 10:07:15 3694
原创 es第十篇:Elasticsearch for Apache Hadoop
es for apache hadoop(elasticsearch-hadoop.jar)允许hadoop作业(mapreduce、hive、pig、cascading、spark)与es交互。At the core, elasticsearch-hadoop integrates two distributed systems: Hadoop, a distributed computin...
2019-11-14 16:22:19 602
转载 使用spark对输入目录的文件进行过滤
使用spark进行文件过滤在使用spark的很多情形下, 我们需要计算某个目录的数据.但这个文件夹下面并不是所有的文件都是我们想要计算的比如 : 对于某一天的数据,我们只想计算其中的几个小时,这个时候就需要把剩下的数据过滤掉更坏的一种情形 : 对于那些正在copy(还没有完成),或者是.tmp临时文件,程序在读取的过程中,文件发生变化已经复制完成或者被删除,都会导致程序出错而停掉...
2019-11-07 13:57:37 1214
原创 IDEA 自动删除类中无用的import包
1.手动快捷键Ctrl + Alt + O2.配置自动清理Ctrl + Alt + S 打开设置然后,进行如下操作:IDEA会自动清理无引用的包。
2019-10-29 14:03:19 165
原创 MySQL如何创建主键,外键和复合主键
1.主键语法①创建时:create table sc (studentnoint,courseidint,scoreint,primary key (studentno) );②修改时:ALTER TABLE table_name ADD CONSTRAINT pk_name PRIMARY KEY(列名);前提是原先没有...
2019-10-28 14:36:33 3628
转载 Spark Streaming消费Kafka Direct保存offset到Redis,实现数据零丢失和exactly once
一、概述 上次写这篇文章文章的时候,Spark还是1.x,kafka还是0.8x版本,转眼间spark到了2.x,kafka也到了2.x,存储offset的方式也发生了改变,笔者根据上篇文章和网上文章,将offset存储到Redis,既保证了并发也保证了数据不丢失,经过测试,有效。二、使用场景Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉...
2019-10-22 10:59:07 242
转载 SparkStreaming踩坑之Kafka重复消费
1.问题描述使用SparkStreaming连接Kafka的demo程序每次重启,都会从Kafka队列里第一条数据开始消费。修改enable.auto.commit相关参数都无效。2.原因分析demo程序使用"KafkaUtils.createDirectStream"创建Kafka输入流,此API内部使用了Kafka客户端低阶API,不支持offset自动提交(提交到zookeepe...
2019-10-22 10:49:43 615
转载 Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以保存Direct方式的offset,但是可能会导致频繁写HDFS占用IO),所以每次出现问题的时候,重启程序,而程序的消费方式是Direct,所以在程序down掉的这段时间Kafka上的数据是消费不...
2019-10-22 10:35:01 316
转载 scala 读取txt文件(从文件读取)
文件格式分别如下package txtobject ReadTxt { def readFromTxtByLine(filePath:String) = { //导入Scala的IO包 import scala.io.Source //以指定的UTF-8字符集读取文件,第一个参数可以是字符串或者是java.io.File val sourc...
2019-10-17 15:49:02 2530
转载 tidb使用坑记录
1、对硬盘要求很高,没上SSD硬盘的不建议使用2、不支持分区,删除数据是个大坑。解决方案:set @@session.tidb_batch_delete=1;3、插入数据太大也会报错解决方案:set @@session.tidb_batch_insert=1;4、删除表数据时不支持别名delete from 表名 表别名where表别名.col = '1' 会报错...
2019-10-09 14:51:07 3970
转载 Dataframe中na.fill的用法
对两个数据表如A,B取JOIN操作的时候,其结果往往会出现NULL值的出现。这种情况是非常不利于后续的分析与计算的,特别是当涉及到对这个数值列进行各种聚合函数计算的时候。Spark为此提供了一个高级操作,就是:na.fill的函数。其处理过程就是先构建一个MAP,如下: val map =...
2019-10-04 22:15:49 5017
转载 Kerberos命令使用2
进入kerberos 控制台kadmin.local 或 kadmin创建数据库kdb5_util create -r HADOOP.COM -s启动kdc服务service krb5kdc start启动kadmin服务service kadmin start修改当前密码kpasswd初始化princlekinit -k -t /hom...
2019-09-23 11:49:26 388
原创 flume集成hdfs(hdfs开启kerberos认证)
)当 sink 到 hdfs 时:) 需修改 flume-env.sh 配置,增添 hdfs 依赖库: FLUME_CLASSPATH="/root/TDH-Client/hadoop/hadoop/*:/root/TDHClient/hadoop/hadoop-hdfs/*:/root/TDH-Client/hadoop/hadoop/lib/*"实例:a1.source...
2019-09-20 18:14:41 1153
转载 kerberos客户端认证
因项目最近使用kerberos认证,此前不太了解,网上查找资料看的也不是太懂,所以把本次经验记录一下.kerberos服务端是安装好的,在此不附具体安装过程,具体操作如下:1.客户端安装:(特别注意centos6版本和centos7版本,因内置kerberos版本不同,所以无法认证,如有类似情况需要在官网手动下载kerberos相关包,手动安装;经测试kinit验证可以通过,但本人用spa...
2019-09-20 14:02:46 835
转载 Kerberos 命令使用
指南登录kinit admin/admin@EXAMPLE.COM[root@dounine ~]# kinit admin/admin@EXAMPLE.COMPassword for admin/admin@EXAMPLE.COM: 123456查询登录状态klist[root@dounine ~]# klistTicket cache: FILE:/tmp/krb...
2019-09-20 11:46:28 2685
原创 flume接收kafka单条消息过大处理方式
查看kafka官网配置 new comsumer.configsa1.sources.r1.kafka.consumer.max.partition.fetch.bytes=20485760flume配置文件.conf加上这条
2019-09-19 18:05:23 803
转载 记flume部署过程中遇到的问题以及解决方法(持续更新)
项目需求是将线上服务器生成的日志信息实时导入kafka,采用agent和collector分层传输,app的数据通过thrift传给agent,agent通过avro sink将数据发给collector,collector将数据汇集后,发送给kafka,拓扑结构如下:现将调试过程中遇到的问题以及解决方法记录如下:1、 [ERROR - org.apache.thrift.ser...
2019-09-19 16:34:24 849
转载 flume自定义拦截器
1. 自定义拦截器实现说明1. 实现interceptor接口,并实现其方法,接口完全限定名为:org.apache.flume.interceptor.Interceptor;2. 自定义拦截器内部添加静态内部类,实现Builder接口,并实现其方法,接口完全限定名为:Interceptor.Builder以下是最简单的代码示例(每个方法的作用都有注释说明):...
2019-09-19 15:37:11 850
转载 MySQL新增数据,存在就更新,不存在就添加(Mybatis)
1、插入一条数据,存在则不操作,不存在就插入(必须现有唯一键)使用insert ignore语句,例如插入数据:insert ignore into user_info (last_name,first_name) values ('LeBron','James');这样一来,如果表中已经存在last_name='LeBron'且first_name='James'的数据,就不会插入,...
2019-09-18 11:00:08 2396
转载 kafka.common.errors.RecordTooLargeException,kafka.common.MessageSizeTooLargeException
1、向Kafka中输入数据,抛异常WARN async.DefaultEventHandler: Produce request with correlation id 92548048 failed due to [TopicName,1]: org.apache.kafka.common.errors.RecordTooLargeException官网两个参数描述如下:messag...
2019-09-11 17:56:15 616
转载 spark-submit 提交yarn-client yarn-cluster两种模式的差别
spark-submit提交给yarn的两种方式总结与区分:spark-submit提交给yarn有两种方式, 1为yarn-cluster, 2为yarn-client两种方式的区别yarn-client主要是用于测试,因为driver运行在本地客户端,负责调度application,会与yarn集群产生大量的网络通信,会导致网卡流量激增!!好处在于直接执行时,本地可以看到所有的lo...
2019-09-04 17:49:19 2736 1
OpenSceneGraph三维渲染引擎设计与实践
2018-04-19
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人