自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

琦彦

Find out who you are,and be that person.

  • 博客(16)
  • 资源 (13)
  • 收藏
  • 关注

原创 hive:函数使用

hive函数使用小技巧:测试函数的用法,可以专门准备一个专门的dual表create table dual(x string);insert into table dual values('');其实:直接用常量来测试函数即可select substr("abcdefg",1,3);substr,在数据库中脚标是从1开始;hive的所有函数手册:https:...

2018-09-28 12:02:16 6418

原创 hive:用hql来做wordcount

用hql来做wordcount有以下文本文件:hello tom hello jimhello rose hello tomtom love rose rose love jimjim love tom love is whatwhat is love需要用hive做wordcount-- 建表映射create table t_wc(sentence string)...

2018-09-28 12:02:07 5857

原创 hive:级联报表查询

级联报表查询假如,有如下数据(文件名:accumulate.dat):A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5C,2015-01,10C,2015-01,20A,2015-02,4A,2015-02,6C,2015-02,30C,2015-02,10B,2015-02,...

2018-09-28 12:01:53 6297

原创 hive:条件查询、join关联查询、分组聚合、子查询

hive查询语法提示:在做小数据量查询测试时,可以让hive将mrjob提交给本地运行器运行,可以在hive会话中设置如下参数:hive> set hive.exec.mode.local.auto=true; 基本查询示例select * from t_access;select count(*) from t_access;select max(ip) ...

2018-09-25 08:07:49 13656

原创 hive:后台启动、和脚本化运行

hive使用方式最基本使用方式启动一个hive交互shellbin/hivehive>设置一些基本参数,让hive使用起来更便捷,比如:让提示符显示当前库:hive>set hive.cli.print.current.db=true;显示查询结果时显示字段名称:hive>set hive.cli.print.header=true;...

2018-09-25 08:07:38 14463

原创 hive:建库建表、表分区、内部表外部表、数据导入导出

hive建库建表与数据导入建库hive中有一个默认的库:库名: default库目录:hdfs://hdp20-01:9000/user/hive/warehouse 新建库:create database db_order;库建好后,在hdfs中会生成一个库目录:hdfs://hdp20-01:9000/user/hive/warehouse/db_or...

2018-09-25 08:07:25 7000

原创 Zookeeper:运行机制和数据存储机制

zookeeper的基本功能和应用场景 zookeeper的基本功能和应用场景 zookeeper的整体运行机制 zookeeper的整体运行机制 zookeeper的数据存储机制数据存储形式zookeeper中对用户的数据采用kv形式存储     只是zk有点特别,key是以路径的形式表示的那就意味着,各key之间有父子关系,比如/ ...

2018-09-21 08:10:52 6727

原创 Hive:基本架构、将mysql作为元数据库

什么是hivehive基本思想Hive是基于Hadoop的一个数据仓库工具(离线),可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。    为什么使用Hive直接使用hadoop所面临的问题 人员学习成本太高 项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大  为什么要使用Hive 操作接口采用...

2018-09-21 08:10:01 5921

原创 awk:处理复杂文本格式

awk特点       awk是一种编程语言,用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件,或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能,是linux/unix下的一个强大编程工具。它在命令行中使用,但更多是作为脚本来使用。awk有很多内建的功能,比如数组、函数等,这是它和C语言的相同之处,灵活性是awk最大的优势。...

2018-09-16 18:14:15 9014 2

转载 数据采集:Flume和Logstash的工作原理和应用场景

在某个Logstash的场景下,我产生了为什么不能用Flume代替Logstash的疑问,因此查阅了不少材料在这里总结,大部分都是前人的工作经验下,加了一些我自己的思考在里面,希望对大家有帮助。大数据的数据采集工作是大数据技术中非常重要、基础的部分,数据不会平白无故地跑到你的数据平台软件中,你得用什么东西把它从现有的设备(比如服务器,路由器、交换机、防火墙、数据库等)采集过来,再传输到你的...

2018-09-14 17:53:17 8469

转载 MySQL大表优化方案

当MySQL单表记录数过大时,增删改查性能都会急剧下降,可以参考以下步骤来优化:单表优化除非单表数据未来会一直不断上涨,否则不要一开始就考虑拆分,拆分会带来逻辑、部署、运维的各种复杂度,一般以整型值为主的表在千万级以下,字符串为主的表在五百万以下是没有太大问题的。而事实上很多时候MySQL单表的性能依然有不少优化空间,甚至能正常支撑千万级以上的数据量:字段 尽量使用TINYINT...

2018-09-12 19:38:58 6053

转载 数据结构: 算法的时间复杂度和空间复杂度

1、算法的概念:算法 (Algorithm),是对特定问题求解步骤的一种描述。解决一个问题往往有不止一种方法,算法也是如此。那么解决特定问题的多个算法之间如何衡量它们的优劣呢?有如下的指标:2、衡量算法的指标:(1)时间复杂度:执行这个算法需要消耗多少时间。(2)空间复杂度:这个算法需要占用多少内存空间。  同一个问题可以用不同的算法解决,而一个算法的优劣将影响到算法乃至程...

2018-09-11 18:32:25 6789

转载 Redis:Bitmaps使用场景-用户签到、统计活跃用户、用户在线状态

BitMap是什么就是通过一个bit位来表示某个元素对应的值或者状态,其中的key就是对应元素本身。我们知道8个bit可以组成一个Byte,所以bitmap本身会极大的节省储存空间。Redis中的BitMapRedis从2.2.0版本开始新增了setbit,getbit,bitcount等几个bitmap相关命令。虽然是新命令,但是并没有新增新的数据类型,因为setbit等命令只不过是...

2018-09-11 18:03:16 12983

原创 user-agent:判断扫码的客户端是微信还是支付宝

User Agent格式User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。浏览器的 UA 字串 标准格式为: 浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识 版本信息微信APP:Mozilla/5.0 (iPhone; C...

2018-09-07 16:38:30 19908

原创 Zookeeper :Linux下集群搭建

上传安装包(zookeeper-3.4.6.tar.gz)到集群服务器解压修改配置文件进入zookeeper的安装目录的conf目录   cp zoo_sample.cfg zoo.cfgvi zoo.cfg# The number of milliseconds of each ticktickTime=2000initLimit=10syncLimit=5...

2018-09-07 11:58:16 5623

原创 mapreduce:安装YARN

mapreduce核心思想:让我们的运算程序并行在多台机器上执行!mapreduce运行平台YARNmapreduce程序应该是在很多机器上并行启动,而且先执行map task,当众多的maptask都处理完自己的数据后,还需要启动众多的reduce task,这个过程如果用用户自己手动调度不太现实,需要一个自动化的调度平台——hadoop中就为运行mapreduce之类的分布式运算程...

2018-09-05 18:48:28 5596

XXX产品软件概要设计书.doc

XXX产品软件概要设计书

2021-09-13

华为软件概要设计模板.doc

华为软件概要设计模板

2021-09-13

MySQL:使用mysqldump在Windows数据库定时备份

MySQL:使用mysqldump在Windows数据库定时备份-- mysqldump --opt --single-transaction=TRUE --user=%user% --password=%password% --host=%host% --protocol=tcp --port=%port% --default-character-set=%charSet% --routines --events %dbName% > %backupPath%\%backupFileName%ry-cloud_%dateTime%.sql

2020-12-11

nssm-2.24-103.zip

NSSM:封装exe和cmd为Windows系统服务 NSSM是一个服务封装程序,它可以将普通exe程序封装成服务,使之像windows服务一样运行。同类型的工具还有微软自己的srvany,不过nssm更加简单易用,并且功能强大。

2020-12-11

Linux--Java环境搭建(Jdk8、MySQL5.7、Redis3.2)

Linux-JAVA环境搭建实施手册,包含Jdk8安装、MySQL5.7安装、Redis3.2安装,已经服务器硬件环境和网络环境说明

2019-04-20

idea :插件Statistic 统计代码数量和行数

显示项目统计数量。 这个插件显示的是按扩展名排序的文件,以及大小、行数、LOC等。 用户可以选择统计(Project/Module/Package/File)范围,选择范围后需要点击Refresh,。 (这个插件需要Java1.8)

2018-12-21

luke-6.6.0

Luke:用于Lucene / Solr / Elasticsearch索引的GUI工具;具体参考:https://blog.csdn.net/fly910905/article/details/81190382

2018-07-24

增量打包工具 patch-generator-desk-v2.0.0

项目增量打包神器:全自动web增量打包发版,支持git/svn,支持多模块项目

2018-06-06

grafana-4.6.2.linux-x64.tar.gz

Prometheus自带的图表是非常基础的,只能用来临时查看一下数据。如果要构建强大的Dashboard,还是需要更加专业的工具才行。这个工具就是Grafana

2017-11-23

prometheus-2.0.0.linux-amd64.tar.gz

Prometheus 属于一站式监控告警平台,依赖少,功能齐全

2017-11-23

毕向东_Java基础源代码Codes

毕向东老师的java源码,对java学习很有帮助

2015-08-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除