2018年09月_琦彦

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创 hive：函数使用

hive函数使用小技巧：测试函数的用法，可以专门准备一个专门的dual表create table dual(x string);insert into table dual values('');其实：直接用常量来测试函数即可select substr("abcdefg",1,3);substr，在数据库中脚标是从1开始；hive的所有函数手册：https:...

2018-09-28 12:02:16 6418

原创 hive：用hql来做wordcount

用hql来做wordcount有以下文本文件：hello tom hello jimhello rose hello tomtom love rose rose love jimjim love tom love is whatwhat is love需要用hive做wordcount-- 建表映射create table t_wc(sentence string)...

2018-09-28 12:02:07 5857

原创 hive：级联报表查询

级联报表查询假如，有如下数据（文件名：accumulate.dat）：A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5C,2015-01,10C,2015-01,20A,2015-02,4A,2015-02,6C,2015-02,30C,2015-02,10B,2015-02,...

2018-09-28 12:01:53 6297

原创 hive：条件查询、join关联查询、分组聚合、子查询

hive查询语法提示：在做小数据量查询测试时，可以让hive将mrjob提交给本地运行器运行，可以在hive会话中设置如下参数：hive> set hive.exec.mode.local.auto=true; 基本查询示例select * from t_access;select count(*) from t_access;select max(ip) ...

2018-09-25 08:07:49 13656

原创 hive:后台启动、和脚本化运行

hive使用方式最基本使用方式启动一个hive交互shellbin/hivehive>设置一些基本参数，让hive使用起来更便捷，比如：让提示符显示当前库：hive>set hive.cli.print.current.db=true;显示查询结果时显示字段名称：hive>set hive.cli.print.header=true;...

2018-09-25 08:07:38 14463

原创 hive：建库建表、表分区、内部表外部表、数据导入导出

hive建库建表与数据导入建库hive中有一个默认的库：库名： default库目录：hdfs://hdp20-01:9000/user/hive/warehouse 新建库：create database db_order;库建好后，在hdfs中会生成一个库目录：hdfs://hdp20-01:9000/user/hive/warehouse/db_or...

2018-09-25 08:07:25 7000

原创 Zookeeper：运行机制和数据存储机制

zookeeper的基本功能和应用场景 zookeeper的基本功能和应用场景 zookeeper的整体运行机制 zookeeper的整体运行机制 zookeeper的数据存储机制数据存储形式zookeeper中对用户的数据采用kv形式存储只是zk有点特别，key是以路径的形式表示的那就意味着，各key之间有父子关系，比如/ ...

2018-09-21 08:10:52 6727

原创 Hive：基本架构、将mysql作为元数据库

什么是hivehive基本思想Hive是基于Hadoop的一个数据仓库工具(离线)，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。为什么使用Hive直接使用hadoop所面临的问题人员学习成本太高项目周期要求太短 MapReduce实现复杂查询逻辑开发难度太大为什么要使用Hive 操作接口采用...

2018-09-21 08:10:01 5921

原创 awk：处理复杂文本格式

awk特点 awk是一种编程语言，用于在linux/unix下对文本和数据进行处理。数据可以来自标准输入(stdin)、一个或多个文件，或其它命令的输出。它支持用户自定义函数和动态正则表达式等先进功能，是linux/unix下的一个强大编程工具。它在命令行中使用，但更多是作为脚本来使用。awk有很多内建的功能，比如数组、函数等，这是它和C语言的相同之处，灵活性是awk最大的优势。...

2018-09-16 18:14:15 9014 2

转载数据采集：Flume和Logstash的工作原理和应用场景

在某个Logstash的场景下，我产生了为什么不能用Flume代替Logstash的疑问，因此查阅了不少材料在这里总结，大部分都是前人的工作经验下，加了一些我自己的思考在里面，希望对大家有帮助。大数据的数据采集工作是大数据技术中非常重要、基础的部分，数据不会平白无故地跑到你的数据平台软件中，你得用什么东西把它从现有的设备（比如服务器，路由器、交换机、防火墙、数据库等）采集过来，再传输到你的...

2018-09-14 17:53:17 8469

转载 MySQL大表优化方案

当MySQL单表记录数过大时，增删改查性能都会急剧下降，可以参考以下步骤来优化：单表优化除非单表数据未来会一直不断上涨，否则不要一开始就考虑拆分，拆分会带来逻辑、部署、运维的各种复杂度，一般以整型值为主的表在千万级以下，字符串为主的表在五百万以下是没有太大问题的。而事实上很多时候MySQL单表的性能依然有不少优化空间，甚至能正常支撑千万级以上的数据量：字段尽量使用TINYINT...

2018-09-12 19:38:58 6053

转载数据结构：算法的时间复杂度和空间复杂度

1、算法的概念：算法 (Algorithm)，是对特定问题求解步骤的一种描述。解决一个问题往往有不止一种方法，算法也是如此。那么解决特定问题的多个算法之间如何衡量它们的优劣呢？有如下的指标：2、衡量算法的指标：（1）时间复杂度：执行这个算法需要消耗多少时间。（2）空间复杂度：这个算法需要占用多少内存空间。　　同一个问题可以用不同的算法解决，而一个算法的优劣将影响到算法乃至程...

2018-09-11 18:32:25 6789

转载 Redis：Bitmaps使用场景-用户签到、统计活跃用户、用户在线状态

BitMap是什么就是通过一个bit位来表示某个元素对应的值或者状态,其中的key就是对应元素本身。我们知道8个bit可以组成一个Byte，所以bitmap本身会极大的节省储存空间。Redis中的BitMapRedis从2.2.0版本开始新增了setbit,getbit,bitcount等几个bitmap相关命令。虽然是新命令，但是并没有新增新的数据类型，因为setbit等命令只不过是...

2018-09-11 18:03:16 12983

原创 user-agent：判断扫码的客户端是微信还是支付宝

User Agent格式User Agent中文名为用户代理，简称 UA，它是一个特殊字符串头，使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。浏览器的 UA 字串标准格式为：浏览器标识 (操作系统标识; 加密等级标识; 浏览器语言) 渲染引擎标识版本信息微信APP：Mozilla/5.0 (iPhone; C...

2018-09-07 16:38:30 19908

原创 Zookeeper :Linux下集群搭建

上传安装包（zookeeper-3.4.6.tar.gz）到集群服务器解压修改配置文件进入zookeeper的安装目录的conf目录 cp zoo_sample.cfg zoo.cfgvi zoo.cfg# The number of milliseconds of each ticktickTime=2000initLimit=10syncLimit=5...

2018-09-07 11:58:16 5623

原创 mapreduce：安装YARN

mapreduce核心思想：让我们的运算程序并行在多台机器上执行！mapreduce运行平台YARNmapreduce程序应该是在很多机器上并行启动，而且先执行map task，当众多的maptask都处理完自己的数据后，还需要启动众多的reduce task，这个过程如果用用户自己手动调度不太现实，需要一个自动化的调度平台——hadoop中就为运行mapreduce之类的分布式运算程...

2018-09-05 18:48:28 5596

MySQL：使用mysqldump在Windows数据库定时备份

MySQL：使用mysqldump在Windows数据库定时备份-- mysqldump --opt --single-transaction=TRUE --user=%user% --password=%password% --host=%host% --protocol=tcp --port=%port% --default-character-set=%charSet% --routines --events %dbName% > %backupPath%\%backupFileName%ry-cloud_%dateTime%.sql

2020-12-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

琦彦

原创 hive：函数使用

原创 hive：用hql来做wordcount

原创 hive：级联报表查询

原创 hive：条件查询、join关联查询、分组聚合、子查询

原创 hive:后台启动、和脚本化运行

原创 hive：建库建表、表分区、内部表外部表、数据导入导出

原创 Zookeeper：运行机制和数据存储机制

原创 Hive：基本架构、将mysql作为元数据库

原创 awk：处理复杂文本格式

转载数据采集：Flume和Logstash的工作原理和应用场景

转载 MySQL大表优化方案

转载数据结构：算法的时间复杂度和空间复杂度

转载 Redis：Bitmaps使用场景-用户签到、统计活跃用户、用户在线状态

原创 user-agent：判断扫码的客户端是微信还是支付宝

原创 Zookeeper :Linux下集群搭建

原创 mapreduce：安装YARN

XXX产品软件概要设计书.doc

华为软件概要设计模板.doc

MySQL：使用mysqldump在Windows数据库定时备份

nssm-2.24-103.zip

Linux--Java环境搭建（Jdk8、MySQL5.7、Redis3.2）

idea ：插件Statistic 统计代码数量和行数

luke-6.6.0

增量打包工具 patch-generator-desk-v2.0.0

grafana-4.6.2.linux-x64.tar.gz

prometheus-2.0.0.linux-amd64.tar.gz

毕向东_Java基础源代码Codes

空空如也