自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 问答 (3)
  • 收藏
  • 关注

原创 大数据去除重复--实战(二)

           关于上一篇数据去重复的问题,在结尾的时候提到,另一种思路:在url-->hashCode 根据范围写入文件的时候,不用迭代二分法,采用平均算法,也就是说根据url的大概行数,设置一个单位区间,循环遍历行的时候,根据hashCode 值,放入不同的空间,然后再放入内存去除重复,写入汇总文件。          去个例子,我文件数据2G,1.5亿行,自己设定一个区间...

2014-01-28 15:10:50 801

原创 JAVA 内存模型(一) 概念理解

      学习JAVA内存模型,可以帮助我们理解数据在内存中的分布、变化等细节,让我们在多线程开发中,拥有对数据更强的掌控力,能让我们开发出更稳定、更优秀的程序。 一、内存模型定义     A memory model describes, given a program and an execution trace of that program, whether the ...

2014-01-27 22:27:18 112

原创 大数据去除重复--实战(一)

          最近快过年了,来了一个紧急任务,加班加点的一周,终于上线了。也没多少时间去研究出去重复数据的算法,上一篇文章的算法,理论是可以的!但是由于我采用的行迭代的方式,JVM 会出现栈的深度溢出,我就换了一种方式,这里再次介绍给大家:          回顾一下题目:超过内存限制的URL,去除重复数据!             我的方法是根据hashCode 范围进行分...

2014-01-25 13:09:15 3604 1

阿里面试的感悟

         很高兴能介绍阿里的面试电话,本来计划是年后5月份左右的时候投简历参加面试的,因为我一直做企业系统,虽然也自己一直学习技术,但是感觉还是有所欠缺,准备花几个月的时间,把互联网的东西,以及一些基础更加的深入透析,结果这次比较意外,有点突然,下面分享一下感受吧!          阿里是国内很重视技术的公司,这次电话面试也是以技术为主,包括spring 、JAVA 基础、一些网络...

2014-01-20 00:22:47 185

原创 大数据url 去除重复

前天接到电话面试,有一个url 去除重复的问题,场景大概是:公司获取了大量url,肯定是超过内存了,按行存放,现在目的想剔除重复的数据比如:一个5G 的txt 文件,url 一行一行的存放,而我们的内存只限制1G 我当时首先考虑分拆文件,然后hash,然后想排序比较,当时没想到好的办法,这里先说第一种: 方案一:1.拆分文件,A B C D E,   条件:...

2014-01-19 23:33:32 1407

JVM 垃圾回收机制( 一) 回收对象的判定

         关于JVM 的垃圾回收机制,我们一般都没过多深入,因为JAVA 和 C++ 的一个很大区别就是,JAVA 帮我们做了垃圾回收,而不用像C++ 那么样手动进行回收,当然任何自动的东西都存在一定弊端,比如机器人,即使自动程度很高,但是在处理某些感情问题上,肯定处理上就会有遗漏,开个玩笑啦,下面我们先来了解一下JVM 的垃圾回收是怎么回事。 一、如何判断对象已经死亡  ...

2014-01-15 16:14:52 234

spring3.2+ehcache 注解使用

我一直不喜欢hibernate ,但是框架是spring mvc + hibernate 搭建,而且我喜欢自己写SQL,数据层 是自己封装的也写东西,没用hql 语句,也就没用他那些缓存,自己也想缓存一部分数据,所以就想自己写个缓存,或者用现成的缓存,通过spring 拦截,实现颗粒度比较细,容易控制的缓存。了解了下,spring 3.0 以后,应该从3.1 以后吧,注解方式的缓存就已经实现,下...

2014-01-10 18:14:46 130

原创 ehcache memcache redis 差异

转自:http://blog.csdn.net/jationxiaozi/article/details/8509732在java项目广泛的使用。它是一个开源的、设计于提高在数据从RDBMS中取出来的高花费、高延迟采取的一种缓存方案。正因为Ehcache具有健壮性(基于java开发)、被认证(具有apache 2.0  license)、充满特色(稍后会详细介绍),所以被用于大型复杂分布式...

2014-01-10 18:05:37 120

原创 大型网站架构的演变

大型网站架构演变转自:http://wenku.baidu.com/view/52b477b765ce0508763213c8.html今天我们来谈谈一个网站一般是如何一步步来构建起系统架构的,虽然我们希望网站一开始就能有一个很好的架构,但告诉我们事物是在发展中不断前进的,网站架构也是随着业务的扩大、用户的需求不断完善的,下面是一个网站架构逐步发展的基本过程,读完后,请思考,你...

2014-01-02 11:01:59 74

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除