lvtula
码龄6年
  • 925,296
    被访问
  • 277
    原创
  • 1,002,098
    排名
  • 118
    粉丝
关注
提问 私信
  • 加入CSDN时间: 2016-04-21
博客简介:

阿正的博客

博客描述:
专注大数据、云计算
查看详细资料
个人成就
  • 获得363次点赞
  • 内容获得122次评论
  • 获得1,027次收藏
创作历程
  • 1篇
    2021年
  • 15篇
    2020年
  • 273篇
    2019年
  • 80篇
    2018年
成就勋章
TA的专栏
  • 结巴切词
    2篇
  • Postman
    1篇
  • Hive
    57篇
  • Hbase
    15篇
  • hadoop
    6篇
  • Flume
    11篇
  • Sqoop
    11篇
  • Yum源
  • 离线安装gcc
    1篇
  • 离线安装
    1篇
  • nginx与yum80端口冲突
    1篇
  • scala
    12篇
  • 流式计算
    6篇
  • SparkSQL
    2篇
  • Spark
    27篇
  • MongoDB
    3篇
  • spark+mongodb
    1篇
  • spark项目
  • WAL
    1篇
  • Hyper-V
    1篇
  • 排序
    1篇
  • 集合
    1篇
  • SQL
    6篇
  • VS2017密钥
    1篇
  • MapReduce
    1篇
  • 项目
    1篇
  • JVM
  • Mysql
    13篇
  • ELK
    2篇
  • Linux
    6篇
  • aliyun
  • HUE
    1篇
  • 集群规划
    1篇
  • TIDB
    4篇
  • CDH
    33篇
  • oozie
    1篇
  • Kerberos认证
    8篇
  • 数据仓库
    2篇
  • HDFS权限控制
    1篇
  • one on one
  • bug
    1篇
  • sentry
    2篇
  • Yarn
    3篇
  • Kafka
    15篇
  • okr
    1篇
  • 算法
  • Zeppelin
    1篇
  • Phoenix
    5篇
  • 架构师
  • Impala
    4篇
  • 推荐系统
    5篇
  • 机器学习
  • 知识图谱
    1篇
  • IDEA
    5篇
  • jdk
    1篇
  • elasticsearch
    5篇
  • Flink
    2篇
  • Git
    1篇
  • FastJson
    4篇
  • Date_format
  • Json
    1篇
  • Grafana
    1篇
  • RDD
  • Mysql异常
    1篇
  • 正则表达式
    1篇
  • 知识推理
兴趣领域 设置
  • 大数据
    hadoophivesparketl
  • 数据库管理
    数据仓库
  • 最近
  • 文章
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

2021-05-26

hive报错整理之Malformed ORC file 、Invalid postscript.将本地文件的数据加载到hive的ORC格式表时,出现以下报错:Diagnostic Messages for this Task:Error: java.io.IOException: java.lang.reflect.InvocationTargetException at org.apache.hadoop.hive.io.HiveIOExceptionHandlerChain.h...
原创
发布博客 2021.05.26 ·
65 阅读 ·
0 点赞 ·
0 评论

Error: A JNI error has occurred, please check your installation and try again

1、先检查是否是java -version与javac -version一致2、IDEA的maven依赖profiles 是否对add-dependencies-for-IDEA选中对勾
原创
发布博客 2020.08.16 ·
236 阅读 ·
0 点赞 ·
1 评论

Phoenix创建二级索引

为什么需要Secondary Index对于HBase而言,如果想精确地定位到某行记录,唯一的办法是通过rowkey来查询。如果不通过rowkey来查找数据,就必须逐行地比较每一列的值,即全表扫瞄。对于较大的表,全表扫瞄的代价是不可接受的。但是,很多情况下,需要从多个角度查询数据。例如,在定位某个人的时候,可以通过姓名、身份证号、学籍号等不同的角度来查询,要想把这么多角度的数据都放到row...
转载
发布博客 2020.04.26 ·
437 阅读 ·
0 点赞 ·
0 评论

Hive调优策略——并行执行、严格模式、JVM重用、压缩、设置mapper和reducer个数 & 小文件合并

目录1. 并行执行2. 严格模式3. JVM重用4. 压缩(1)开启Map输出阶段压缩(snappy压缩)(2)开启Reduce输出阶段压缩(snappy压缩)5. 合理设置Map和Reduce个数(1)小文件过多,减少map数(2)小文件进行合并(3)文件比较大、文件处理逻辑复杂,增大map数(4)合理设置Reduce个数(1)开启Map输出阶段压...
转载
发布博客 2020.04.24 ·
344 阅读 ·
0 点赞 ·
1 评论

快速排序(java实现)

高快省的排序算法有没有既不浪费空间又可以快一点的排序算法呢?那就是“快速排序”啦!光听这个名字是不是就觉得很高端呢。假设我们现在对“6 1 2 7 9 3 4 5 10 8”这个10个数进行排序。首先在这个序列中随便找一个数作为基准数(不要被这个名词吓到了,就是一个用来参照的数,待会你就知道它用来做啥的了)。为了方便,就让第一个数6作为基准数吧。接下来,需要将这个序列中所有比基准数大的数放...
转载
发布博客 2020.04.12 ·
123 阅读 ·
0 点赞 ·
0 评论

NLP处理-Spark中的HashTF与CountVectorizer模型

http://spark.apache.org/docs/latest/ml-features.html#tf-idfimport org.apache.spark.ml.feature._import org.apache.spark.ml.linalg.SparseVectorimport org.apache.spark.sql.SparkSessionimport scala...
转载
发布博客 2020.04.01 ·
189 阅读 ·
0 点赞 ·
0 评论

spark 密集向量和稀疏向量

1、概念稀疏向量和密集向量都是向量的表示方法 密集向量和稀疏向量的区别: 密集向量的值就是一个普通的Double数组 而稀疏向量由两个并列的 数组indices和values组成 例如:向量(1.0,0.0,1.0,3.0)用密集格式表示为[1.0,0.0,1.0,3.0], 用稀疏格式表示为(4,[0,2,3],[1.0,1.0,3.0]) 第一个4表示向量的长度(元素个数),[0,2,3]...
转载
发布博客 2020.04.01 ·
401 阅读 ·
0 点赞 ·
0 评论

Spark:基于jieba分词的特征向量提取

基于jieba分词的对计算机课程名的特征向量提取首先引入包:import org.apache.spark.sql.{DataFrame, SparkSession}//spark入口,DataFrame操作需要用到的包import java.nio.file.{Path, Paths}//加入自定义词库时路径需要的包import com.huaban.analysis.jieba...
转载
发布博客 2020.03.26 ·
611 阅读 ·
1 点赞 ·
0 评论

结巴分词5--关键词抽取

作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007欢迎转载,也请保留这段声明。谢谢!1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些,关键词还可以在文本聚类、分类、自动摘要...
转载
发布博客 2020.03.26 ·
316 阅读 ·
1 点赞 ·
0 评论

linux 命令批量修改文件内容中某字段

测试文件的内容复制多个测试文件(批量修改)一个四个测试文件,看效果就行两种方法修改1.perl命令替换格式: perl -p -i -e "s/修改的字段/新字段/g" 文件名(别的路径下需加好路径)perl -p -i -e "s/123/888/g" test1.txt test2.txt说明:将test1.txt和test2.txt中的123替换...
原创
发布博客 2020.03.18 ·
1472 阅读 ·
1 点赞 ·
0 评论

hive按当天日期建立分区表 | 动态往日期分区插入数据

hive建立分区表,以当天日期(“2014-08-15”)作为分区依据,hql如下:CREATE EXTERNAL TABLE IF NOT EXISTS product_sell(category_id BIGINT,province_id BIGINT,product_id BIGINT,price DOUBLE,sell_num BIGINT)PARTITIONED BY ...
转载
发布博客 2020.03.10 ·
1598 阅读 ·
1 点赞 ·
0 评论

es+spark 读取es中的自定义格式日期时报异常

问题描述:spark读取指定索引/类型的数据,其中有自定义格式的日期数据,读取该日期时报异常User class threw exception: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 4 times, most recent failure: ...
原创
发布博客 2020.03.05 ·
1198 阅读 ·
2 点赞 ·
0 评论

elasticsearch查询某个字段为空值的结果

传统sql查询返回某个字段为空值的结果写法是select * from 表名 where 字段名 is null在elasticsearch中查询语句为GET index/type/_search{ "query": { "bool": { "must_not": { "exists": { "field": "字段名"...
原创
发布博客 2020.03.03 ·
8312 阅读 ·
1 点赞 ·
1 评论

Elasticsearch出现circuit_breaking_exception异常

1. 产生Data too large异常异常如下:CircuitBreakingException[[FIELDDATA] Data too large, data for [proccessDate] would be larger than limit of [xxxgb]经排查,原来是ES默认的缓存设置让缓存区只进不出引起的,具体分析一下。2. ES缓存区概述首先简单...
原创
发布博客 2020.02.14 ·
7800 阅读 ·
4 点赞 ·
0 评论

error:Elasticsearch exception [type=illegal_argument_exception, reason=Limit of total fields [1000]

说的就是一个索引里面的fiedls的个数超过1000了,估计这个默认值是1000,这个时候,调大这个值,就能处理这个问题啦。上面的图就是 使用 curl 命令来处理这个问题。上面的图就是 使用 curl 命令来处理这个问题。curl -XPUT http://192.168.1.136:9200/出问题的那个索引名称/_settings -d '{"index.mappin...
原创
发布博客 2020.02.14 ·
5332 阅读 ·
2 点赞 ·
1 评论

TiDB 2.0 kill会话

运行环境:在tiDB中国目前的版本家索引很费时间,对磁盘的IO影响较大,若在加索引的时候可以考虑kill掉会话。待空闲时间在加索引。1.准备单表1000万条记录:sysbench2.执行添加字段和索引的语句:alter table benchmark1.sbtest1 add column datetime NOT NULL DEFAULT CURRENT_TIMESTAMP...
原创
发布博客 2020.01.07 ·
388 阅读 ·
1 点赞 ·
0 评论

Scala操作MySQL数据库

一、工具IDEA+MAVEN二、Pom文件添加依赖1、更改成自己的scala版本<properties> <scala.version>2.11.8</scala.version> </properties>2、添加驱动依赖<dependency> <groupId>mysql<...
原创
发布博客 2019.12.30 ·
270 阅读 ·
1 点赞 ·
0 评论

Spark写入elasticsearch报错Could not write all entries for bulk operation以及Connection error

问题:org.elasticsearch.hadoop.EsHadoopException: Could not write all entries for bulk operation以及Connection error解决方法:添加参数val conf = new SparkConf();conf.set("es.nodes", elasticsearch_nodes);con...
原创
发布博客 2019.12.10 ·
1080 阅读 ·
2 点赞 ·
0 评论

Postman 使用方法详解-终极教程最全

一、Postman背景介绍用户在开发或者调试网络程序或者是网页B/S模式的程序的时候是需要一些方法来跟踪网页请求的,用户可以使用一些网络的监视工具比如著名的Firebug等网页调试工具。今天给大家介绍的这款网页调试工具不仅可以调试简单的css、html、脚本等简单的网页基本信息,它还可以发送几乎所有类型的HTTP请求!Postman在发送网络HTTP请求方面可以说是Chrome插件类产品中的代...
原创
发布博客 2019.11.19 ·
3059 阅读 ·
3 点赞 ·
0 评论

es第十篇:Elasticsearch for Apache Hadoop

es for apache hadoop(elasticsearch-hadoop.jar)允许hadoop作业(mapreduce、hive、pig、cascading、spark)与es交互。At the core, elasticsearch-hadoop integrates two distributed systems: Hadoop, a distributed computin...
原创
发布博客 2019.11.14 ·
277 阅读 ·
1 点赞 ·
0 评论
加载更多