RayfunC的博客

等待, 寻找机会, 一举颠覆

一文读懂机器学习

引论 在本篇文章中,我将对机器学习做个概要的介绍。本文的目的是能让即便全然不了解机器学习的人也能了解机器学习。而且上手相关的实践。这篇文档也算是 EasyPR开发的番外篇。从这里開始。必须对机器学习了解才干进一步介绍EasyPR的内核。当然,本文也面对一般读者。不会对阅读有相关的前提要求。 在...

2019-02-18 21:03:36

阅读数 804

评论数 0

HBase 架构详解析

HBase 的架构相对于其他大数据框架的架构来说是较为复杂的 HBase特点具有: 列式海量储存, 稀疏性, 列数据可为空, 且不占用空间 极易扩展, 储存空间添加 DataNode 节点, 处理性能添加 HRegionServer 节点 高可用, 利用 Zookeeper 高并发 架...

2019-02-16 10:32:01

阅读数 762

评论数 0

HBase 优化总结

1.高可用 HBase 中的 Hmaster 存在单点故障隐患, 故需要配置 HA, HBase 原生支持对 Hmaster 的 HA 步骤如下: 1.关闭HBase集群(如果没有开启则跳过此步) [rayfun@hadoop102 hbase]$ bin/stop-hbase.sh ...

2019-02-14 13:07:02

阅读数 186

评论数 0

HBase 读写流程

读数据流程 客户端先查看本地是否存有 meta 表 (包含所需数据所在的 HRegionServer 位置) 数据位置元信息的缓存, 即 blockCache, 如果有直接找对应的 HRegionServer 而不用去 zookeeper 查找元信息, 否则需要到 zookeeper 读取 me...

2019-02-12 13:50:10

阅读数 751

评论数 0

Hive 调优详解

1.fetch属性 在旧版本的 Hive 中, hive-default.xml.template文件中 hive.fetch.task.conversion 默认是 minimal, 修改为 more 后, 全局查找、字段查找、limit查找等都会直接执行而不会运行mapreduce. 新版本的...

2019-01-18 19:24:31

阅读数 498

评论数 0

吐血推荐 | 5+1款源代码管理笔记本(全平台)

废话不多说, 这些绝对是迄今为止最好用的代码片段管理笔记本, 效率神器

2019-01-18 17:20:06

阅读数 2404

评论数 0

Hive 删除行, 表 ,清空表

删除行 A表数据如下 id(String) name(String) ---------------------------- 1 aaa 2 bbb 3 ccc -------------------------...

2019-06-28 09:55:31

阅读数 284

评论数 0

正则表达式的贪婪和非贪婪匹配

贪婪匹配:正则表达式一般趋向于最大长度匹配。 非贪婪匹配:匹配到结果就好。 默认是贪婪模式。在量词后面直接加一个问号?就是非贪婪模式。 量词:{m.n}:m到n个 *:任意多个(表示匹配0-无穷) +:一个到多个(表示匹配1-无穷) ?:0或一个 .表示除\n之外的任意字符 (...

2019-06-14 13:03:40

阅读数 125

评论数 0

RegexBuddy 正则表达式辅助工具使用指南

1 下载 RegexBuddy 并安装 安装后的界面如下: 2 切换布局 点击右上角的彩色格子图标,选择 Side by Side Layout: 这种布局的好处是,Create 面板与 Test 面板同时被展示,方便比对: 3 界面说明 4...

2019-06-14 12:48:58

阅读数 38

评论数 0

Hive 分析函数与混合函数

函数分类 HIVE CLI 命令 显示当前会话有多少函数可用 SHOW FUNCTIONS; 显示函数的描述信息 DESC FUNCTION concat; 显示函数的扩展描述信息 DESC FUNCTION EXTENDED concat; 简单函数 函...

2019-06-07 12:01:45

阅读数 8

评论数 0

cume_dist () 和 percent_rank () 使用

SQL> create table cume ( 2 id integer, 3 value number(8,2), 4 name varchar2(30)); Table created. SQL> SQL> select * from cu...

2019-06-07 11:58:03

阅读数 63

评论数 0

Hive 贪婪匹配和非贪婪匹配 .* 和 .*?

贪婪匹配和非贪婪匹配的区别 .* 和 .*?举例如下:  从字符串"888|666|544"中提取最后一个竖线|后面的内容,但是在这个字符串中,竖线的个数不是固定的 。 ...

2019-06-06 17:25:13

阅读数 29

评论数 0

Idea 阿里代码规约插件安装设置

在MAC系统中设置为例,其他系统 相差不多 风.fox 阿里巴巴Java开发规约插件 安装 MAC Preferences->Plugins->Browse repositories WINDOW Settings -> Plugins -...

2019-05-31 18:12:13

阅读数 42

评论数 0

Hive 更新增量表

insertoverwritetableerp.tsor_BKPF--要更新此表 SELECTtd.*FROM( select ta.* fromerp.tsor_BKPF ta--先要把原来中未更新的数据捞出来 leftjoin(selecttc.MANDT,tc.BUKRS,t...

2019-05-27 09:41:13

阅读数 131

评论数 0

将 Hive 空值统一为 \N

Hive在使用过程中不可避免需要对NULL、’’(空字符串)进行判断和识别。Hive默认情况下底层存储空值跟其他传统数据库有所不同。 1、hive默认存储空值的规则 (1) 不同数据类型对空值的存储规则 Int与String类型,NULL底层默认存储为\N,查询...

2019-05-27 09:24:02

阅读数 77

评论数 0

Hive Select 选择语句排除一列或多列

有时候我们需要几乎所有的列,但是不包括分区列或其中的某些列,比如分区列要放最后,我们要在之前插入新列并插入新的数据,这时候排除一列或者多列的 select 语句就十分有用了 排除num列 set hive.support.quoted.identifiers=none; select `(n...

2019-05-22 08:43:16

阅读数 258

评论数 0

Hive select 语句大量技巧

hive 查询操作: 1、列匹配正则表达式 select 查询列使用正则表达式匹配列,hive 0.13 版本之前直接用。0.13 及后续版本需要开设置 hive 的属性 set hive.support.quoted.identifiers=none;...

2019-05-19 16:23:07

阅读数 133

评论数 0

Hive 全部函数示例

目录 关系运算 1、等值比较: = 2、不等值比较: <> 3、小于比较: < 4、小于等于比较: <= 5、大于比较: > 6、大于等于比较: >= 7、空值判断: IS NULL 8、非空判断...

2019-05-17 08:29:34

阅读数 122

评论数 0

理解 o(1), o(n), o(logn), o(nlogn)

在描述算法复杂度时,经常用到 o (1), o (n), o (logn), o (nlogn) 来表示对应算法的时间复杂度,这里进行归纳一下它们代表的含义:这是算法的时空复杂度的表示。不仅仅用于表示时间复杂度,也用于表示空间复杂度。 O 后面的括号中有一个函数,指明某个算法的耗时 / 耗空间与数...

2019-04-29 07:37:24

阅读数 136

评论数 0

Kafka 本地策略 LocationStragies:PreferConsistent

创建 Direct 方式的 Stream 注意导入的包名称以及版本是 org.apache.spark.streaming.kafka010 Scala 代码: import org.apache.kafka.clients.consumer.ConsumerRecord import o...

2019-04-27 19:49:48

阅读数 365

评论数 0

提示
确定要删除当前文章?
取消 删除