weiha666
码龄7年
关注
提问 私信
  • 博客:62,865
    62,865
    总访问量
  • 24
    原创
  • 896,626
    排名
  • 9
    粉丝
  • 0
    铁粉

个人简介:Geeker

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2017-10-08
博客简介:

weiha666的博客

查看详细资料
个人成就
  • 获得24次点赞
  • 内容获得6次评论
  • 获得95次收藏
创作历程
  • 1篇
    2021年
  • 15篇
    2020年
  • 24篇
    2019年
  • 1篇
    2017年
成就勋章
TA的专栏
  • hive
    8篇
  • vertica
    14篇
  • mysql
    1篇
  • mapreduce
    1篇
  • spring boot
    3篇
  • kylin
    2篇
  • idea
    1篇
  • spark
    6篇
  • 数据仓库
    3篇
  • 正则表达式
    1篇
  • springMvc
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive3新特性

Hive ACID v2SQL兼容性约束和代理键物化视图 Hive ACID v2Hive3的ACID v2相比Hive2的ACID v1,对很多事务的特性进行了优化升级,使之更接近于关系型数据库。使用ACID语义修改现有Hive表数据,包括insert, update, delete, merge支持数据库四大特性, Atomicity, Consistency, Isolation, Durability允许在使用长时间运行的分析查询同时进行并发更新。使用MVCC(Multi-Version
转载
发布博客 2021.08.27 ·
742 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Creating the Principals and Keytab on Active Directory

Active Directory存储关于Windows域成员的信息,包括用户和hosts。verticause使用Kerberos协议来访问这些信息,以便对Windows用户进行Vertica数据库的身份验证。Kerberos协议使用principals 来标识用户,并使用keytab文件来存储用户的密码信息。您需要将keytab文件安装到Vertica中,以使Vertica数据库能够以密码方式对windows用户进行身份验证。这个过程描述:创建Vertica service principal。
翻译
发布博客 2020.05.31 ·
639 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Kerberos Authentication -- Configure JDBC Clients on All Platforms

JDBC客户机上的Kerberos身份验证使用Java身份验证和授权服务(JAAS)获取初始Kerberos凭证。JAAS是一个API框架,它隐藏特定于平台的身份验证细节,并为其他应用程序提供一致的接口。您可以通过JAAS登录配置文件指定客户机登录过程。这个文件包含指定Kerberos的身份验证方法和其他设置的选项。一个名为LoginModule的类在配置文件中定义了有效的选项。JDBC客户端principal 被设计为JDBC -username@server-from-connection-stri
翻译
发布博客 2020.05.31 ·
526 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

vertica JDBC API 之 VerticaCopyStream

VerticaCopyStream类(有关该类的详细信息可在JDBC文档中找到)允许您将数据从客户机系统传输到Vertica数据库。它允许直接使用SQL COPY语句,而不必首先将数据复制到数据库集群中的主机。使用复制命令从主机加载数据需要超级用户特权才能访问主机的文件系统。用于从流中加载数据的COPY语句不需要超级用户特权,因此您的客户端可以使用在将要接收的表上具有INSERT特权的任何用户帐户进行连接。适用场景: 从数据文件或者inputStream中,批量copy数据到vertica。copy语句可
原创
发布博客 2020.05.10 ·
1282 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

vertica 最佳实践之 Reading Query Plans

Reading Query PlansQuery PlansThe EXPLAIN StatementEXPLAIN Output OptionsEXPLAIN ResultsTextual Output for EXPLAINGraphical Output for EXPLAINEXPLAIN LOCAL VERBOSE ResultsEXPLAIN LOCAL VERBOSE的图形输出EXP...
翻译
发布博客 2020.05.03 ·
781 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

vertica 最佳实践之 Data Loading in Vertica Using COPY

Data Loading in Vertica Using COPY使用COPY语句批量加载COPY语句如何加载数据加载方式何时使用COPY AUTO何时使用COPY DIRECT何时使用COPY TRICKLE监视数据负载的Vertica系统表调优数据负载资源池参数查询预算如何更改资源池参数数据加载配置参数对负载方案进行故障排除加载大文件将多个小文件加载到同一目标表加载宽表用于加载的execut...
翻译
发布博客 2020.05.03 ·
926 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

vertica 最佳实践之 ROS Bundling

ROS BundlingVertica file architectureNew storage formatHow is the new format different?Does the new functionality bundle all projection files?Why is ROS bundling useful?What configuration parameters a...
翻译
发布博客 2020.05.02 ·
513 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

vertica最佳实践之 tuple_mover操作

vertica最佳实践之 tuple_mover操作Tuple Mover OverviewTuple Mover Moveout Operation检测wos spillovermoveout最佳实践使用COPY DIRECT加载大数据文件配置参数: MoveOutIntervalWOS中未提交的数据不要将WOS用于大型临时表WOSDATA资源池的maxMemorySize配置参数: Move...
翻译
发布博客 2020.05.02 ·
629 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

vertica备份与恢复(二)

vertica备份与恢复(二)文档名词解释将整个群集从源复制到目标群集(Copycluster)如何在相似的Vertica群集之间复制完整群集完整数据库复制的优点和局限性如何在相似的Vertica群集之间复制特定表在相似的Vertica群集之间复制特定表的优点和限制本博客主要介绍相似的vertica集群间数据的备份与恢复。本博客翻译整理自:Copying Data Between Simila...
翻译
发布博客 2020.05.02 ·
342 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

vertica备份与恢复(一)

vertica备份与恢复(一)关于vertica备份与恢复的一系列文章翻译整理自:Vertica Backup and Restore: What’s Your Use Case?本篇博文主要介绍当备份集群和恢复集群规模相同的使用场景。翻译整理自:Copy and Restore Data from a Vertica Cluster to a Backup文档名词解释源集群:执行备份的...
翻译
发布博客 2020.05.02 ·
539 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

vertica最佳实践之优化projection

文章目录How Vertica Works with ProjectionsHelpful TipsSegmentationEncodingMonitoring ProjectionsOther Projection TasksRefreshing ProjectionMerging ProjectionMaking Projections K-Safe本文翻译自:Best Practic...
翻译
发布博客 2020.05.02 ·
1598 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

MySQL索引-B+树(看完你就明白了)

文章目录 索引是一种数据结构,用于帮助我们在大量数据中快速定位到我们想要查找的数据。索引最形象的比喻就是图书的目录了。注意这里的大量,数据量大了索引才显得有意义,如果我想要在 [1,2,3,4] 中找到 4 这个数据,直接对全数据检索也很快,没有必要费力气建索引再去查找。索引在 MySQL 数据库中分三类:B+ 树索引Hash 索引全文索引我们今天要介绍的是工作开发中最常接...
转载
发布博客 2020.03.10 ·
540 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

各种类型的Writable

各种类型的Writable(Text、ByteWritable、NullWritable、ObjectWritable、GenericWritable、ArrayWritable、MapWritable、SortedMapWritable) java原生类型除char类型以外,所有的原生类型都有对应的Writable类,并且通过get和set方法可以他们的值。IntWritable和...
原创
发布博客 2020.02.19 ·
2620 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

spring boot jpa学习笔记(一)

文章目录Jpa 是什么spring boot jpa 能做什么基本查询复杂查询自定义SQL操作常用注解yml配置
原创
发布博客 2020.02.11 ·
8413 阅读 ·
1 点赞 ·
2 评论 ·
2 收藏

springboot整合Thymeleaf详解

Thymeleaf介绍简单说, Thymeleaf 是一个跟 Velocity、FreeMarker 类似的模板引擎,它可以完全替代 JSP 。相较与其他的模板引擎,它有如下三个极吸引人的特点:Thymeleaf 在有网络和无网络的环境下皆可运行,即它可以让美工在浏览器查看页面的静态效果,也可以让程序员在服务器查看带数据的动态页面效果。这是由于它支持 html 原型,然后在 html 标签里增...
原创
发布博客 2020.02.10 ·
528 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

springboot 注解

Spring MVC相关注解Spring MVC相关注解解释@Controller声明该类为SpringMVC中的Controller,用来处理http请求@RestController组合注解,@Controller + @ResponseBody.意味着,该Controller的所有方法都默认加上了@ResponseBody@RequestMapping把...
原创
发布博客 2020.02.10 ·
173 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

IntelliJ Idea 常用快捷键列表

IntelliJ Idea 常用快捷键列表Ctrl+Shift + Enter,语句完成“!”,否定完成,输入表达式时按 “!”键Ctrl+E,最近的文件Ctrl+Shift+E,最近更改的文件Shift+Click,可以关闭文件Ctrl+[ OR ],可以跑到大括号的开头与结尾Ctrl+F12,可以显示当前文件的结构Ctrl+F7,可以查询当前元素在当前文件中的引...
原创
发布博客 2019.12.28 ·
98 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

kylin cube 构建优化

随着维度数目的增加,Cuboid 的数量会爆炸式地增长。为了缓解 Cube 的构建压力,Apache Kylin 引入了一系列的高级设置,帮助用户筛选出真正需要的 Cuboid。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hierachy Dimension)、必要维度(Mandatory Dimension)和衍生维度(De...
原创
发布博客 2019.12.27 ·
383 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

通过生成大宽表来优化kylin的cube构建

Kylin将Cube构建任务分解为几个依次执行的步骤,这些步骤包括Hive操作、MapReduce操作和其他类型的操作。如果你有很多Cube构建任务需要每天运行,那么你肯定想要减少其中消耗的时间。本文的优化主要是讲kylin对于join连接性能差,需要通过hive 把各数据源join,生成一个中间表(大宽表,把需要的数据都关联到一个表,可以设计成分区表,增量刷新),然后kylin直接以此表作为数据...
原创
发布博客 2019.12.27 ·
721 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Spark 性能调优

由于大多数Spark计算的内存性质,Spark程序可能会受到群集中任何资源(CPU,网络带宽或内存)的瓶颈。通常,如果数据适合内存,则瓶颈是网络带宽,但是有时,您还需要进行一些调整,例如 以序列化形式存储RDD,以减少内存使用量。对于大多数程序,切换到Kryo序列化并以序列化形式保留数据将解决大多数常见的性能问题(官网提示)。1. 常规性能调优一:最优资源配置Spark性能调优的第一步,就是...
原创
发布博客 2019.12.27 ·
304 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏
加载更多