- 博客(11)
- 资源 (36)
- 收藏
- 关注
原创 hadoop记录篇7-hive常用sql统计
一 。参考文档参考 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL二。 数据库操作》》创建数据库 环境参考 http://blog.csdn.net/liaomin416100569/article/details/78395266 hive命令进入hive客户端hive> create datab...
2017-10-31 12:19:54 2323 1
原创 hadoop记录篇6-数据仓库hive
一 。hive简介 hive是基于hadoop文件系统的大数据分析工具,能够轻松实现数据汇总 点对点查询 大批量数据分析等 使用传统的SQL语法 提供了UDF 用户自定义函数来分析统计数据。hive的数据组成: 数据库(Databases) 类似于 mysql的数据库 用于将不同表进行区分的命名空间; 表(Table) ddl表预先定义列名和数据的格式 dml操作带...
2017-10-30 17:32:43 602
原创 hadoop记录篇5-eclipse开发mapreduce
一。 MAP REDUCE执行原理 MapReduce主要分为三个阶段 Map阶段 Shuffle阶段 Reduce阶段 1》Map阶段:Hadoop Map/Reduce框架为每一个InputSplit产生一个map任务,而每个InputSplit是由该作业的InputFormat产生的。1》InputSplit的大小算法通过查看FileInputFormat
2017-10-27 12:46:07 473
原创 hadoop记录篇4-mapreduce2(yarn)集群安装和ha高可用
一。 yarn架构 mapreduce从 0.2.3之后 进行了重构, 发布新的mapreduce 版本v2, 也可以称为 yarn 引入了资源调度的概念 之前的JobTracker 被拆分成了 Resouce Manager和ApplicationMaster 结构上 yarn存在两种类型的节点 主节点称为Resouce Manager(RM) 从节点(执行任务)称为 Node
2017-10-27 08:56:17 422
原创 freemarker模板引擎
一。 freemarker简介 在互联网软件内容网站中 一般首页的访问量大,为了提供首页的访问效率,一般 首页的内容以及其中的新闻等信息都可以实现html静态化 浏览器访问时 设置浏览器的缓存策略和生成静态页面的周期一致 可以使访问效率大大提升 同时配合cdn处理图片 js css等资源 可以在首页访问时 理论完全脱离数据库 降低应用压力 原理图: 实际应用案例
2017-10-26 09:06:21 10317
原创 hadoop记录篇3-namenode水平拓展Federation+viewfs
一 。Federation简介和原理 之前的ha和集群都是单namenode对外提供服务 明显当用户量大时 会出现服务宕机问题 就算standby服务器激活也会导致崩溃为了水平的拓展namnode服务 federation提供了多个namnode 这些namenode 被聚合在一个大的集群中 每个namenode之间不需要任何交流数据节点用于公共的存储 每个nam
2017-10-21 15:20:03 1198
原创 hadoop记录篇2-namenode高可用(HA)之QJM+NFS
一 。QJM简介和原理 hadoop集群环境 namenode元数据保存在一台机器中 存在单点故障 传统的高可用解决方案 至少有一台从机 用于备份主机数据,同一时间只有主机对外提供服务,如果主机宕机 从机能够自动接管主机服务,从机为了同步主机的数据 必须定期同步主机的edits日志 但是如果主机宕机 edits日志必定无法读取 此时产生了新的组件 JournalNodes(同se
2017-10-21 09:18:23 2365
原创 hadoop记录篇1-hdfs集群安装
一。hdfs原理和架构 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)P
2017-10-20 10:19:26 386
原创 springcloud记录篇4-断路器Circuit Breaker
一。断路器介绍 分布式系统中 服务和服务之间调用必然存在多层,调用过程必然涉及到网络 cpu 内存的占用 假设订阅者调用发布者 发布者服务出现宕机等 订阅者如果不能及时发现监控到错误 所有的请求依然会被请求到失败的发布者服务,失败的请求可能需要连接网络 开启线程 失败重试等 可能导致订阅者服务越来越多请求申请这些资源 而导致订阅者宕机 此时如果有其他的服务也要调用订阅者的服务 就会发
2017-10-09 09:28:00 8070 1
原创 springcloud记录篇3-springcloud客户端ribbon和feign
一 。客户端介绍 在springcloud中发布的服务一般为http服务 使用http服务客户端即可调用 最底层的http协议是使用它tcp协议实现 清晰理解http协议请求响应模型可以使用Socket来进行请求 这种方式开发成本太大,java.net包提供了 HttpURLConnection类来处理http协议 该类可以发送get和post请求,但是没有自动重连以及自动解析 以
2017-10-06 10:13:54 3690
java经典问题总结java经典问题总结
2010-01-08
无bug带属性填充包括对象嵌套属性填充与多文件上传
2010-01-05
改进struts改进struts改进struts改进struts
2010-01-05
struts开发 带上文件上传
2010-01-04
短信猫开发swing代码可运行和usb串口驱动和windows com包
2009-12-30
短信猫二次开发指南短信猫二次开发指南
2009-12-24
lucene与quartz例子
2009-12-10
jbpm创建数据库jbpm创建数据库
2009-06-28
ssh整个的一个jarssh整个的一个jar
2010-01-19
java实现远程控制代码 java机器人
2010-01-15
axis建立发布webservice最全文档
2010-01-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人