自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 Sqoop 使用shell命令的各种参数的配置及使用方法

1、Sqoop简介Sqoop将用户编写的sqoop命令翻译为MR程序,MR程序读取关系型数据库中的数据,写入到HDFS或读取HDFS上的数据,写入到关系型数据库在MR程序中如果要读取关系型数据中的数据,必须制定输入格式为DBInputformat在MR程序中如果要向关系型数据吸入数据,必须制定输出格式为DBOutputformatSqoop命令运行的MR程序,只有Map阶段,没...

2020-07-31 16:30:00 1643

原创 hive笔记

1、显示数据库,列名Apache<property> <name>hive.cli.print.header</name> <value>true</value></property><property> <name>hive.cli.print.current.db</...

2020-07-30 19:02:00 98

原创 HBase集成hive

一、为了创建一个新的由Hive管理的HBase表,请使用CREATE TABLECREATE TABLE hbase_table_1(key int, value string) STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'WITH SERDEPROPERTIES ("hbase.columns.mappi...

2020-07-27 11:25:00 129

原创 kafka工作流程及文件存储机制

1、Kafka工作流程kafka中消息是以topic进行分类的,生产者生产消息,消费者消费消息,都是面向topic的topic是逻辑上的概念,而partition是物理上的概念,每个partition对应一个log文件,该log文件中存储的就是producer生产的数据。producer生产的数据会被不断追加到log文件的末端,且每条数据都有自己的offsetoffset是一个l......

2020-07-25 11:16:00 3639

原创 hive函数

1、日期函数1.1 date_add 指定日期n天之后用法:date_add(date('2018-09-09'),10) 参数类型分别为date和int,返回date类型select date_add(date('2018-09-09'),10)-- 返回:2018-09-191.2 add_months 指定日期n月之后用法:add_months(date('2018-0...

2020-07-22 15:59:00 591

原创 hadoop、yarn时间与集群时间不同

cat hadoop-env.shexport HADOOP_OPTS="$HADOOP_OPTS -Duser.timezone=GMT+08"cat yarn-env.shYARN_OPTS="$YARN_OPTS -Duser.timezone=GMT+08"cat hbase-env.shexport TZ="Asia/Shanghai"查看linux集群时区:...

2020-07-10 18:18:00 783

原创 Mysql 时间字段(加上或者减去一段时间)

Mysql时间加减函数为date_add()、date_sub()定义和用法DATE_ADD() 函数向日期添加指定的时间间隔。DATE_SUB() 函数向日期减少指定的时间间隔。语法DATE_ADD(date,INTERVAL expr type)DATE_SUB(date,INTERVAL expr type)date 参数是合法的日期表达式。expr参数是您...

2020-07-09 09:13:00 2820

原创 awk数组与语法

1、awk数组1.1 数组结构 1.2 数组分类索引数组:以数字为下标关联数组:以字符串为下标1.3 awk关联数组现有如下文本,格式如下:即左边是随机字母,右边是随机数字, 即将相同的字母后面的数字加在一起,按字母的顺序输出以$1为下标,创建数组a[$1]=a[$1]+$2 或者(a[$1]+=$2)然后配合END和for循环输出结果:for(i in a ) :...

2020-07-07 14:43:00 4228

原创 awk模块、变量、执行

1、BEGIN模块BEGIN模块在awk读取文件之前就执行BEGIN模式常常被用来修改内置变量ORS、RS、FS、OFS等值2、awk内置变量(预定义变量)变量名属性$0当前记录,一整行$1,$2,$3....$a当前记录的第n个区域,区域间由FS分隔。FS输入区域分隔符,默认是空格。field separatorNF当前记录中的区域个数,...

2020-07-06 18:00:00 166

原创 awk简介与表达式实例

1、awk概述awk不仅仅是Linux系统中的一个命令,而且是一种编程语言它可以用来处理数据和生成报告(excel)处理的数据可以是一个或多个文件可以使直接来自标准输入、也可以是通过管道获取标准输入awk可以在命令行上直接编辑命令进行操作,也可以写成awk程序来进行更为复杂的操作2、awk环境简介3、awk的格式awk指令是由模式、动作、或者模式和动作的组合组成p...

2020-07-06 17:25:00 348

原创 图数据库

1、为什么需要图数据库我们假设这样一种特殊的查询场景:找出开发商是XXX,小区绿化率大于30%,周边200米有大型超市,500米有地铁,1000米有三甲医院,2000米有升学率超过60%的高中,房价在800W以内,最近被经纪人带看次数最多的房子。这可能是一个客户想要的房子,但是各位觉得有哪个产品可以支持么?如果说我们用传统的关系型数据库,MySQL或者Oracle可以吗?那是不是我...

2020-07-03 11:35:00 799 1

原创 推荐几款优秀的开源博客系统

1.OneBlog一个简洁美观、功能强大并且自适应的Java博客。项目地址:https://gitee.com/yadong.zhang/DBlog2.haloHalo 可能是最好的 Java 博客系统。项目路径:https://github.com/halo-dev/halo3.mblog开源免费的博客系统mblog开源免费的博客系统, Java语言开发, 支持mys...

2020-07-02 16:15:00 4323

原创 红黑树

红黑树(Red Black Tree)是一种自平衡的二叉搜索树(Self-balancing Binary Search Tree)。以前也叫平衡二叉B树(Symmetric Binary B-Tree)1、前言树的结构1.1 平衡二叉搜索树平衡二叉搜索树(Balanced Binary Search Tree),简称BBST,常见的平衡二叉搜索树是AVL和红黑树二叉搜索树...

2020-07-02 14:21:00 159

原创 用户画像基础概念

1、何为用户画像用户画像是指根据用户的属性、偏好、行为、生活习惯、等信息而抽象出来的标签化用户模型。通俗讲就是给用户打标签,而标签是通过对用户信息分析而来的高度提炼的特征标识通过打标签可以利用一些高度概括、容易理解的特征来描述用户,可以让人更容易理解用户,并且可以方便计算机处理用户画像是对现实世界中用户的建模,用户画像应该包含目标、方式、组织】标准、验证这些方面目标:指定是描...

2020-07-01 11:19:00 3891

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除