自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

数据之路

专注数据架构 外功修行,内功修神

  • 博客(22)
  • 资源 (3)
  • 论坛 (1)

原创 hbase vs mongodb

1.HBase依赖于HDFS,HBase按照列族将数据存储在不同的hdfs文件中;MongoDB直接存储在本地磁盘中,MongoDB不分列,整个文档都存储在一个(或者说一组)文件中 (存储)2.Mongodb支持二级索引,而hbase本身不支持二级索引(查询)3.HBase一个region只有一个HRegionServer对外提供服务,一旦这个region无法服务,则查询会失败;Mongo

2015-06-26 16:52:43 22621

原创 Spark实战

01.Spark简介(Spark VS MapReduce)02.Spark生态系统03.Scala集合简介04.spark的关键组件05.核心概念:弹性分布式数据集06.RDD的操作(转换(transformation)动作(actions))07.RDD依赖08.Wordcount例子09. 提交job10.编程接口11.Spark运行架构12.Spark SQL13.SparkStreaming14.练习题15.延伸

2015-06-24 16:07:05 28193 8

转载 PowerDesigner列名、注释内容互换

http://my.oschina.net/chwencong/blog/52652

2015-06-12 18:52:33 696

转载 ZooKeeper Watcher注意事项

zookeeper watch的定义如下:watch事件是一次性触发器,当watch监视的数据发生变化时,通知设置了该watch的client,即watcher。需要注意三点:1.一次性触发器client在一个节点上设置watch,随后节点内容改变,client将获取事件。当节点内容再次改变,client不会获取这个事件,除非它又执行了一次读操作并设置watch2.发送至c

2015-06-12 17:06:39 3094

原创 架构中常见的开源模块

分布式协同: Zookeeper 负载均衡: LVS(Layer 4), HAProxy(Layer 4、 7), Nginx(Layer 7) 虚拟化: LXC、KVM、Xen HA:Keepalived、Heartbeat 分布式缓存: Memcache, Redis 消息队列: Kafka/MetaQ, Beanstalkd、Gearman、etc 监控

2015-06-11 22:50:30 1510

转载 Linux内存 性能调优

内存是影响Linux性能的主要因素之一,内存资源的充足与否直接影响应用系统的使用性能。free命令:监控Linux内存使用状况。由上图可知,空闲内存是free+buffers+cached=155MB一般来说如果空闲内存/物理内存>70%,内存性能优;如果小于20%,则性能差,需要添加内存。vmstat命令:显示关于系统各种资源之间相关性能的简要信息。 如果si和so数

2015-06-11 18:38:28 2684

转载 设计模式(Design Patterns)

一、设计模式的分类总体来说设计模式分为三大类:创建型模式,共五种:工厂方法模式、抽象工厂模式、单例模式、建造者模式、原型模式。结构型模式,共七种:适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式,共十一种:策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式

2015-06-11 15:42:47 1816

原创 com.mongodb.MongoException$CursorNotFound: cursor not found on server异常处理

java链接MongoDB处理大量数据时经常碰到cursor not found 的异常,其实是超时所致Exception in thread "main" com.mongodb.MongoException$CursorNotFound: cursor not found on server at com.mongodb.DBApiLayer$Result.init(DBApiLayer.java:379) at com.mongodb.DBApiLayer$Result

2015-06-11 15:35:15 5087

原创 Every Programmer Should Know These Latency Numbers

Every Programmer Should Know These Latency Numbers1秒=1000毫秒(ms) 1秒=1,000,000 微秒(μs) 1秒=1,000,000,000 纳秒(ns) 1秒=1,000,000,000,000 皮秒(ps)L1 cache reference ......................... 0.5 nsBranch

2015-06-11 00:00:56 857

原创 ERROR: Found lingering reference file hdfs

Found lingering reference异常ERROR: Found lingering reference file hdfs://jiujiang1:9000/hbase/month_hotstatic/5af24d51488823419d155283441c2d0f/c/9b58bc5e853f445e9f28b98a36da6d04.b330aa24d0e3652ae

2015-06-09 23:36:45 2533

原创 There is an overlap in the region chain修复

ERROR: (region day_hotstatic,860010-2355010000_20140417_12_entry_00000000321,1400060700465.fda3b0aca340570aeb64410c97e3cb73.) Multiple regions have the same startkey: 860010-2355010000_20140417_12_ent

2015-06-09 23:33:42 3574

原创 There is an overlap in the region chain

ERROR: (regions day_hotstatic,860010-2355010000_20140417_12_entry_00000000321,1398674475358.0dc205736ec1e890bd2d37a2e3220acc. and day_hotstatic,860010-2368000000_20140413_14_visit_00000001964,14000607

2015-06-09 23:30:42 2820

原创 region xx not deployed on any region server

ERROR: Region { meta => month_hotstatic,860010-2288000000_201405_5_exit_00000047486,1400144486405.e737a0d96930d3ad31fbcf796c9b8a08., hdfs => hdfs://jiujiang1:9000/hbase/month_hotstatic/e737a0d96930d3a

2015-06-09 23:27:20 4805

原创 Error in deleting blocks.

2014-08-24 22:15:21,714 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Error processing datanode Commandjava.io.IOException: Error in deleting blocks.        at org.apache.hadoop.hdfs.serve

2015-06-09 23:23:00 1165

原创 org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in receiveBlock for block

Hbase依赖的datanode日志中如果出现如下报错信息:DataXceiverjava.io.EOFException:INFO org.apache.hadoop.hdfs.server.datanode.DataNode: Exception in receiveBlock for block 解决办法:Hbase侧配置的dfs.socket.tim

2015-06-09 23:20:06 1878

原创 480000 millis timeout while waiting for channel to be ready for write异常处理

480000 millis timeout while waiting for channel to be ready for write

2015-06-09 23:14:00 6282

原创 missing blocks错误

Datanode的日志中看到: 10/12/14 20:10:31 INFO hdfs.DFSClient: Could not obtain block blk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io.IOException: No live nodes contain current block. Will get ne

2015-06-09 23:07:50 1226

转载 Hbase写入量大导致region过大无法split问题

最近在线上往hbase导数据,因为hbase写入能力比较强,没有太在意写的问题。让业务方进行历史数据的导入操作,中间发现一个问题,写入速度太快,并且业务数据集中到其中一个region,这个region无法split掉,处于不可用状态。这里描述一整个过程——        事情的起因:业务方按照userid和商品id作为rowkey前缀,并没有进行hash散列。我当时咨询过业务方,认为:1.

2015-06-09 23:05:36 1699

原创 hbase集群写不进去数据的问题追踪过程

hbase从集群中有8台regionserver服务器,已稳定运行了5个多月,8月15号,发现集群中4个datanode进程死了,经查原因是内存 outofMemory了(因为这几台机器上部署了spark,给spark开的-Xmx是32g),然后对从集群进行了恢复并进行了补数据,写负载比较 重,又运行了几天,发现从集群写不进去数据了①、regionserver端

2015-06-09 22:59:20 4232

原创 如何给系统升级

系统的升级涉及各个架构组件,细节很多。长时间野蛮成长使老系统积累了很多问题。 系统升级则意味着需要repair之前埋下的雷,那为何还要升级,可以考虑以下几个方面成熟老系统常见问题:1. 缺乏文档这应该是大小公司都存在的问题。文档会极大降低开发效率,并且互联网项目的特点是易变和追求速度,详细文档不是很好的方案。这就要求方案和细节设计上的合理性和不要做 “精巧”方案。结构化设计

2015-06-07 00:10:27 821

原创 为何需要总结

总结和计划总是让人喜悦或镇痛,一方面以前一段时间没有荒废,能给现在的行动以信心,另一方面看到一年的时间并不能完成很多事情,需要抓紧时间。按优先级和重要性安排自己的时间让自己清醒总是好的。

2015-06-06 23:54:29 789

原创 备忘

python十进制转16进制:python -c "print hex(28285)"程序远程调试:-Xdebug -Xrunjdwp:transport=dt_socket,server=y,address="8000"程序运行时间:ps -eo pid,lstart,etime | grep 5176lstart 启动时间 etime 运行多长时间硬盘io使用情况ios...

2015-06-03 22:29:15 1125

正则表达式验证工具.exe

正则表达式验证工具 验证正则正确与否的利器 验证java、javascript等等,非常棒的软件,推荐下

2013-03-28

GIAC架构大会-承载每天万级任务的调度系统架构是如何设计的.pdf

承载每天万级任务的调度系统架构是如何设计的 分布式任务调度系统如何设计? 开源分布式任务调度系统介绍

2019-07-07

ippicv_linux_20151201.tgz

Ubuntu16.04安装OpenCV3.2.0过程中,在cmake下载过程中可能会出现 ICV:DOWNLONDING ippicv_linux_20151201.tgz 但是一直下载不下来,自己可以手动下载,把压缩包放到opencv3.2.0->ippic->Download下

2018-04-07

代立冬的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也
提示
确定要删除当前文章?
取消 删除