自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(270)
  • 资源 (240)
  • 收藏
  • 关注

原创 hive按年月实现动态分区

set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict创建动态分区表:testtable1CREATE TABLE testtable1( id string, date string)partitioned by (month string)row...

2019-07-10 14:28:39 3922

原创 CDH安装kylin集群

参考:https://blog.csdn.net/eyeofeagle/article/details/88991967安装环境:cdh5.12.0kylin:apache-kylin-2.6.2-bin-cdh57.tar.gz下载:http://www-us.apache.org/dist/kylin/apache-kylin-2.6.2/1、安装kylin一、安装前准备...

2019-06-19 14:36:05 1334

原创 superset嵌入到静态页面报错because it set 'X-Frame-Options' to 'sameorigin'

1、选择charts的url2、把url嵌入到静态页面<!DOCTYPE html><html> <head> <meta charset="utf-8" /> <meta http-equiv="X-Frame-Options" content="deny"> <title></titl...

2019-06-06 15:01:40 5584 2

原创 kylin 日期函数处理

参考http://kylin.apache.org/cn/docs/tutorial/sql_reference.htmlCASTRANGE,INTERVAL关键字指明了范围。PRECEDING表示前几天(秒/分/时/月/年)。FOLLOWING表示后几天(秒/分/时/月/年)。例子:SELECT part_dt, lstg_format_name, SUM(price) ...

2019-06-05 16:05:57 5321

原创 Superset二次开发便宜前端代码遇到的问题

进入到superset/static/assets目录执行命令:[root@cdh-node01 assets]# npm install报错信息:安装的node版本node-v10.15.3-linux-x64.tar.xz解决方案降低node版本:安装node8版本curl --silent --location https://rpm.nodesource....

2019-05-28 18:54:47 1947

原创 Linux下安装Superset

1、安装python3Anaconda3-2019.03-Linux-x86_64.sh2、安装superset依赖包yum install gcc gcc-c++ libffi-devel python-devel python-pip python-wheel openssl-devel libsasl2-devel openldap-devel3、在virtualenv环境下...

2019-05-13 15:41:33 3088

原创 spark sql 读取hbase中数据保存到hive

新建SaprkReadHbase类:package sparksqlimport java.util.Propertiesimport org.apache.hadoop.hbase.HBaseConfigurationimport org.apache.hadoop.hbase.client.Resultimport org.apache.hadoop.hbase.io.Immut...

2019-04-25 11:28:36 2366 1

原创 转换为isoDate时间格式

import java.text.DateFormat;import java.text.SimpleDateFormat;import java.time.Instant;import java.util.Date;import java.util.TimeZone;/** * @Author yang * @Date: 2019/4/1 15:38 * @Version 1...

2019-04-02 16:04:31 18758 1

转载 Cloudera Manager API v18

介绍本文档描述了Cloudera Manager REST API。å所有请求和响应都以Javascript对象表示法(JSON)表示。下面列出的API资源遵循标准的createread-update - delete (CRUD)语义,其中HTTP请求路径定义要执行的实体,而HTTP方法表示要执行的操作类型。HTTP Method Operation POST Cre...

2019-03-28 09:44:59 904

原创 hbase shell命令进不去

hbase shell命令报错信息日志信息显示解决方案:根据参考改echo 0 > /proc/sys/vm/overcommit_memory:问题还是报错echo 1 > /proc/sys/vm/overcommit_memory:问题解决。参考:http://www.bubuko.com/infodetail-2...

2019-03-25 10:11:22 5034

原创 Hadoop在安装snappy过程中的问题

Linux2.6.32-504.el6 hadoop-2.7.3 jdk1.8.0_171问题:  测试机中已经有一套搭建好了的Hadoop集群,所以在往生产环境部署Hadoop集群时,直接将测试机中编译好的Hadoop版本上传到生产环境中即可,然后修改下配置文件集群就搭建成功了。但由于当时在搭建集群时没有考虑使用snappy来对文件压缩,所以在Hadoop的动态库中就没有Snappy的...

2019-03-13 15:08:32 633

原创 Unable to load native-hadoop library for your platform...

在执行hdfs命令时,会有一个警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable我们增加调试信息看问题出在了哪里。增加调试信息有两种方式,1、在执行命令前加一条如下命令...

2019-03-13 12:21:17 3941 1

原创 sqoop 导oracle数据到hbase character string buffer too small

发现问题出在写的sql语句中的:to_char(dbms_lob.substr(A.OPSDESC,4000))原因分析在对CLOB进行的TO_CHAR处理,可以理解为将CLOB中存储的信息转换成varchar2,然后在进行展现,大家都知道对于varchar2来言,最多存储4000个字符,当超出4000字符时,就报错了。错误的大致意思就是超出了varchar2的缓冲大小。...

2019-03-08 16:43:48 521

原创 解决HBase Replication在数据大量写入时导致RegionServer崩溃问题

针对集群habse不能读写原因以及配置hbase昨天一直在进行拆分与合并,如果StoreFile文件数量超出hbase.hstore.blockingStoreFiles大小 ,导致hbase读写前必须先进行 split(或者compaction),阻塞memStore的数据flush到磁盘中,同时把该region添加到flushQueue,延时刷新(flush),这期间会阻塞写操作直到comp...

2019-03-08 14:17:52 982

转载 关于Hadoop数据块Miss在页面提示的问题

这个文档转至台湾的已了论坛,地址是:http://hadoop.nchc.org.tw/phpbb/viewtopic.php?f=4&amp;t=1938https://blog.csdn.net/dajuezhao/article/details/6319705請教一個hadoop運行維護中的問題:背景:調整hadoop配置:1. hadoop的dfs.replicatio...

2019-03-05 17:57:09 227

转载 分分钟解决HDFS无法启动的一个小问题------HDFS启动后一直处于安全状态

文章转自:原创:任航若泽大数据问题 :HDFS启动后一直处于安全状态解决过程:1.查看hadoop namenode的启动日志1STARTUP_MSG: Starting NameNode2STARTUP_MSG: host = hadoop001/192.168.137.1413STARTUP_MSG: args = []4STARTUP_MSG: v...

2019-03-04 10:56:16 5050 1

原创 生产HDFS Block损坏恢复最佳实践

1、上传文件hello.txt[root@cdh-node01 apps]# hdfs dfs -mkdir /blockrecover[root@cdh-node01 apps]# echo "hello word" &gt; hello.txt[root@cdh-node01 apps]# hdfs dfs -put hello.txt /blockrecover[root@c...

2019-03-04 10:55:19 1489

原创 hbase导入数据过多问题

17:54:10.768 [hconnection-0xfca67ce-shared--pool1-t1169] WARN o.a.hadoop.hbase.client.AsyncProcess - #149, table=CDR_QUALITY_ROWKEY, attempt=1/35 failed=1ops, last exception: org.apache.hadoop.hbase.D...

2019-03-01 11:36:44 1983

原创 Kafka使用Java客户端进行访问

本文环境如下: 操作系统:CentOS 6 64位 JDK版本:1.8.0_171 64位 Kafka版本:kafka_2.12-2.1.1 1. maven依赖包&lt;dependency&gt; &lt;groupId&gt;org.apache.kafka&lt;/groupId&gt; &lt;artifactId&gt;kafka_2.12&lt;/arti...

2019-02-25 16:30:22 1817

原创 给大家推荐8个SpringBoot精选项目

项目案例项目一:支付服务简介:支付服务:支付宝、微信、银联详细 代码案例,目前已经1800+Star。十分钟让你快速搭建一个支付服务,内附各种教程。项目地址:https://gitee.com/52itstyle/spring-boot-pay项目二:秒杀案例简介:从0到1构建分布式秒杀系统,脱离案例讲架构都是耍流氓,码云GVP项目。这个是自5月以来最上心的一个项目,尽...

2019-02-13 11:25:22 656

转载 Xshell5:要继续使用此程序,您必须应用最新的更新或使用新版本

使用Xshell5的同学,大家最近对这个界面应该都不会陌生吧!Xshell-5.0.1339p这是xshell5最后一个版本。弹出这个窗口是说,xshell5在2018-12-27已经不能免费使用了!解决办法1:修改电脑时间,往后退一年 比如修改为2017年,然后就能启动了,但是很显然不是很好的解决办法!解决办法2:有大佬提供了一个启动的bat脚本!原文转载(大佬之前是繁体字,我已...

2019-01-30 11:53:32 2386 1

转载 IntelliJ IDEA 常用插件一览,让效率成为习惯

一、官方工具IntelliJ IDEA 默认安装并提供了非常多的工具,比如 Git Integration、Maven Integration、Markdown support、SSH Remote Run 等。其中有很多好用,但是不为人知的工具。1. REST client在日常开发过程中,我们或多或少都涉及到 API 接口的测试。例如,有的小伙伴使用 Chrome 的 Postma...

2019-01-29 17:29:16 6758

转载 Apache Spark 2.4 新增内置函数和高阶函数使用介绍

转载自过往记忆(https://www.iteblog.com/)本文链接: 【Apache Spark 2.4 新增内置函数和高阶函数使用介绍】(https://www.iteblog.com/archives/2459.html)Apache Spark 2.4 新增了24个内置函数和5个高阶函数,本文将对这29个函数的使用进行介绍。关于 Apache Spark 2.4 的新特性,可以...

2019-01-29 16:27:23 406

原创 Spark学习之路 (一)Spark2.4 HA集群的分布式安装

一、下载Spark安装包1、从官网下载http://spark.apache.org/downloads.html 2、从微软的镜像站下载http://mirrors.hust.edu.cn/apache/3、从清华的镜像站下载https://mirrors.tuna.tsinghua.edu.cn/apache/二、安装基础1、Java8安装成功2、z...

2019-01-28 17:21:30 1166

原创 启动hbase报java.lang.ClassNotFoundException: org.apache.htrace.SamplerBuilder

软件版本:hadoop-3.2.0、hbase-2.1.2之前查了官网,这两个版本是目前可以互相匹配的最高的版本,but启动start-hbase.sh报下面这个错误2019-01-25 18:21:30,131 ERROR [main] regionserver.HRegionServer: Failed construction RegionServerjava.lang.NoCl...

2019-01-25 18:39:02 629

转载 看完这篇文章,你就能熟练运用SparkSql

花了几天休息的时间整理了这篇文章,就为了让你读完就能深入了解并熟练运用Spark SQL!如果你觉得有用的话请收藏加关注,你的转发和点赞是我最大的动力!原创不易,转载请注明出处!转自微信公众号: 大数据哔哔机本文基于Spark官方网站(spark.apache.org),加上自己的理解和实验编写。文中Demo基于Spark2.4。1、概述Spark SQL是一个用于结构化数据处...

2019-01-22 14:48:00 329

转载 使用BUCKLOAD向HBASE中导入数据

今天我们来搞一下Buckload这里有一张图,很好的解释了BuckLoad的导入原理,通过MapReduce程序在HDFS直接生成HFile文件,将HFile文件移动到HBase中对应表的HDFS目录中其实ImortTSV生成HFile,再导入HBase的方式也是BuckLoad但与BuckLoad方式不同的是,ImportTSV的导入方式,是在命令行进行导入的,不需要我们编写程序...

2019-01-22 09:55:42 1046

原创 Hue离线安装手册

准备工作hue需要用到的软件下载地址:https://download.csdn.net/download/lin443514407lin/109302321、做yum源把/etc/yum.repos.d/下的文件备份到其他地方,这个CentOS-Base.repo文件拷到那个目录yum clean allyum makecacheyum源就可以用了2、建立用户Us...

2019-01-21 15:14:05 1373

转载 Phoenix原理 | Phoenix查询计划剖析

转自微信公众号:HBase技术社区一.概要在数据库中,执行计划就是表示一条SQL将要执行的步骤,这些步骤按照不同的数据库运算符号(算子)组成,具体的组成和执行方式由数据库中的查询优化器来决定。换而言之,执行计划决定SQL的执行效率。在数据库的使用中了解其查询计划的构成,是进行查询性能调优的必要条件。本文将详细介绍Phoenix的查询计划语法、组成结构,以及一些注意事项。 二.查询计...

2019-01-21 11:02:31 2681

原创 hbase shell运行问题

环境:CDH-5.15.0-1.cdh5.15.0 突然运行hbase shell出现问题:[root@cdh-master ~]# hbase shellError: Could not find or load main class org.apache.hadoop.util.PlatformNameJava HotSpot(TM) 64-Bit Server VM warnin...

2019-01-18 11:51:59 3601 5

转载 spark 2.4让你飞一般的处理复杂数据类型

转自微信公众号: spark技术分享spark 2.4 对复杂数据处理类型引入了 29 个内嵌函数,文档参考 https://docs.databricks.com/_static/notebooks/apache-spark-2.4-functions.html,里面包含一些 higher-order 函数,就跟scala 里面的 map filter reduce 一样,让你在sql中也可...

2019-01-14 11:29:10 1351 1

转载 HBase 入门之数据刷写(Memstore Flush)详细说明

文章转自微信公众号:iteblog_hadoop 接触过 HBase 的同学应该对 HBase 写数据的过程比较熟悉(不熟悉也没关系)。HBase 写数据(比如 put、delete)的时候,都是写 WAL(假设 WAL 没有被关闭) ,然后将数据写到一个称为 MemStore 的内存结构里面的,如下图:但是,MemStore 毕竟是内存里面的数据结构,写到这里面的数据最终还是需要...

2019-01-14 10:46:04 2431 2

转载 HBase2.0新特性之In-Memory Compaction

摘要: In-Memory Compaction是HBase2.0中的重要特性之一,通过在内存中引入LSM结构,减少多余数据,实现降低flush频率和减小写放大的效果。本文根据HBase2.0中相关代码以及社区的讨论、博客,介绍In-Memory Compaction的使用和实现原理。In-Memory Compaction是HBase2.0中的重要特性之一,通过在内存中引入LSM结构,减少多...

2018-12-29 10:09:33 518

转载 代码 | Spark读取mongoDB数据写入Hive普通表和分区表

版本: spark 2.2.0 hive 1.1.0 scala 2.11.8 hadoop-2.6.0-cdh5.7.0 jdk 1.8 MongoDB 3.6.4一 原始数据及Hive表 MongoDB数据格式{    "_id" : ObjectId("5af65d86222b639e0c2212f3"),    "id" : "1",    "name" : ...

2018-12-28 12:18:03 825

转载 我司Spark迁移Hive数据到MongoDB生产案例代码

github地址:https://github.com/yanglin502/sparkhivetomg/tree/master/sparkhivetomg文章转自 若泽大数据:https://open.weixin.qq.com/connect/oauth2/authorize?appid=wxc8cfdff818e686b9&amp;redi...

2018-12-28 09:58:18 411

转载 Java几种常用JSON库性能比较

SON不管是在Web开发还是服务器开发中是相当常见的数据传输格式,一般情况我们对于JSON解析构造的性能并不需要过于关心,除非是在性能要求比较高的系统。目前对于Java开源的JSON类库有很多种,下面我们取4个常用的JSON库进行性能测试对比, 同时根据测试结果分析如果根据实际应用场景选择最合适的JSON库。这4个JSON类库分别为:Gson,FastJson,Jackson,Json-l...

2018-12-26 15:09:12 17452

原创 centos安装mysql 在线安装

yum install mysql-server -yservice mysqld startchkconfig mysqld onchkconfig --list mysqldmysql 进入mysql命令行接口mysql -u root;use mysql;select user, host, password from user;CREATE USER 'yishikeji...

2018-12-25 16:07:12 121

原创 java sqoop api 导mysql数据到hdfs

package com.example.demo.controller;import org.apache.hadoop.conf.Configuration;import org.apache.sqoop.Sqoop;import org.apache.sqoop.tool.SqoopTool;import org.apache.commons.lang3.StringUtils;...

2018-12-21 17:16:24 1428

原创 CDH5.15.0安装spark2.3

简介:在我的CDH5.15.0集群中,默认安装的spark是1.6版本,这里需要将其升级为spark2.x版本。经查阅官方文档,发现spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。我尝试了安装spark2.3版本,大告成功,这里做一下安装spark2.3版本的步骤记录。一.  安装准备所需软件...

2018-11-30 15:10:48 1724 2

原创 hadoop集群监控总结

1、取自ResourceManager REST API’s指标;https://hadoop.apache.org/docs/r2.8.4/hadoop-yarn/hadoop-yarn-site/ResourceManagerRest.htmlhttp://&lt;rm http address:port&gt;/ws/v1/cluster/metricshttp://**.**...

2018-09-21 10:11:39 5964

Apache Kafka实战.pdf

Apache Kafka实战.pdf..

2019-02-21

DataFun技术年货CV、Ads篇

DataFun技术年货CV、Ads篇..

2019-02-20

DataFun技术年货搜索推荐篇

DataFun技术年货搜索推荐篇

2019-02-20

DataFun技术年货大数据篇.pdf

DataFun的这份干货里有不少2018年HBase MeetUp整理出来的文章~

2019-02-13

【03 去哪儿网 徐骁】Flink 在去哪儿网的实践和应用

【03 去哪儿网 徐骁】Flink 在去哪儿网的实践和应用........

2019-01-28

Apache Flink特刊(正式电子版)

Apache Flink特刊(正式电子版)

2019-01-28

2018美团点评技术文章合辑

2018美团点评技术文章合辑,包括前端、后端、大数据方面等美团点评2018年技术

2019-01-28

hue搭建收集的文档

hue搭建。。

2019-01-21

Elasticsearch搜集的资料

《Solr权威指南 下卷》.pdf、Elasticsearch 权威指南(中文版).pdf、Elasticsearch集成Hadoop最佳实践.pdf、Elasticsearch技术解析与实战.pdf、Lucene实战(第2版).pdf、大数据搜索与日志挖掘及可视化方案——ELK Stack:Elasticsearch Logstash Kibana(第2版).高凯(详细书签)、深入理解ElasticSearch.pdf

2018-12-29

Python机器学习及实践从零开始通往Kaggle竞赛之路.pdf

Python机器学习及实践从零开始通往Kaggle竞赛之路.pdf.............

2018-12-29

20181201Apache CarbonData & Spark Meetup

20181201Apache CarbonData & Spark Meetup.

2018-12-27

基于CarbonData构建万亿级数据仓库.pdf

基于CarbonData构建万亿级数据仓库.pdf

2018-12-26

What's New in Apache Spark 2.4.pdf

What's New in Apache Spark 2.4.pdf。

2018-12-26

CarbonData_meetup_shenzhen_20181201_v1.1.2

CarbonData_meetup_shenzhen_20181201_v1.1.2。

2018-12-26

收集的storm的pdf版资料

收集的storm的pdf版资料。

2018-12-26

CarbonData应用实践和未来规划.pdf

CarbonData应用实践和未来规划.pdf。

2018-12-26

Phoenix.pdf

Phoenix.pdf.

2018-12-26

(全)Flink Forward China 2018 PPT

(全)Flink Forward China 2018 PPT

2018-12-26

kudu构建近实时分析系统.pdf

kudu构建近实时分析系统.pdf.

2018-12-26

基于 Impala 构建实时用户行为分析引擎.pdf

包含基于 Impala 构建实时用户行为分析引擎.pdf和.开源大数据分析引擎Impala实战.pdf两份

2018-12-26

离线安装 gcc、g++

离线安装 gcc、g++

2022-05-27

Hive表生成工具,Hive表生成工具Hive表生成工具

Hive表生成工具,Hive表生成工具Hive表生成工具

2022-03-10

mysql_backup - 副本.zip

mysql 备份shell脚本 mysql_backup.zip

2021-09-21

7.10 Flink x TiDB Meetup 讲师PPT.zip

2021.07.70 Flink x TiDB Meetup

2021-07-14

flink大厂实战经验.zip

仅1年GitHub Star数翻倍,Apache Flink 做了什么? 4 Lyft基于Apache Flink的大规模准实时数据分析平台 15 日均处理万亿数据!Apache Flink在快手的应用实践与技术演进之路 26 bilibili实时平台的架构与实践 47 美团点评基于 Apache Flink 的实时数仓平台实践 70 小米流式平台架构演进与实践 90 Netflix:Evolving Keystone to an Open Collaborative Real-time ETL Platform 108 OPPO 基于 Apache Flink 的实时数仓实践 115 菜鸟供应链实时数仓的架构演进及应用场景 136 目录

2021-06-22

Spring三级缓存解决循环依赖.pdf

Spring三级缓存解决循环依赖.pdf

2021-06-22

Elasticsearch7.10.0集成IK相关性同义词改源码实现MySql5.7.2实现远程动态同义词词库实时更新.pdf

Elasticsearch7.10.0集成IK相关性同义词改源码实现MySql5.7.2实现远程动态同义词词库实时更新.pdf

2021-06-22

离线安装用到的 requests 和pip库

安装文章地址:https://blog.csdn.net/lin443514407lin/article/details/115230341

2021-03-26

【《TensorFlow2深度学习201911》】.rar

【《TensorFlow2深度学习201911》】pdf

2021-03-13

2020年java面试题集锦(2)(1).docx

2020年java面试题集锦(2)(1)

2021-03-10

阿里面试(2).pdf

阿里面试

2021-03-10

20190921 Apache Flink Meetup 北京站 PPT.zip

20190921 Apache Flink Meetup 北京站 PPT.zip

2019-09-21

nslicense.rar

https://blog.csdn.net/lin443514407lin/article/details/86701210的破解文件

2019-07-27

20190629Apache Flink Meetup 北京站.zip

20190629Apache Flink Meetup 北京站

2019-07-01

2019年5月11号_Apache Flink China Meetup - 上海站 Meetup.zip

2019年5月11号_Apache Flink China Meetup - 上海站 Meetup.

2019-05-21

Apache Kafka × Apache Flink Meetup-北京站20190512.zip

Apache Kafka × Apache Flink Meetup-北京站20190512.

2019-05-21

ELK Stack搭建及使用.docx

ELK Stack搭建及使用.docx

2019-04-10

Spark2018eBook.pdf

Spark2018eBook.pdf

2019-03-06

flume-ng-sql-source-1.4.3.jar

flume-ng-sql-source-1.4.3.jar

2019-03-05

DataFun技术文章合集.pdf

NLP 、搜索 、广告、风控、 大数据等。

2019-02-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除