大规模分布式应用之海量数据和高并发解决方案总结一二

最新推荐文章于 2024-06-28 08:15:00 发布

Java后端技术

最新推荐文章于 2024-06-28 08:15:00 发布

阅读量1.9k

点赞数 1

本文链接：https://blog.csdn.net/bntx2jsqfehy7/article/details/78838868

版权

本文探讨了应对大规模分布式应用中海量数据和高并发问题的策略。主要内容包括使用缓存、页面静态化、数据库优化、读写分离、NoSQL和Hadoop等技术。此外，还提到了应用程序与静态资源的分离、反向代理、CDN等高并发场景下的解决方案。通过这些方法，可以有效提高网站的性能和稳定性。

摘要由CSDN通过智能技术生成

一、网站应用背景

开发一个网站的应用程序，当用户规模比较小的时候，使用简单的：一台应用服务器+一台数据库服务器+一台文件服务器，这样的话完全可以解决一部分问题，也可以通过堆硬件的方式来提高网站应用的访问性能，当然，也要考虑成本的问题。

当问题的规模在经济条件下通过堆硬件的方式解决不了的时候，我们应该通过其他的思路去解决问题，互联网发展至今，已经提供了很多成熟的解决方案，但并不是都具有适用性，你把淘宝的技术全部都搬过来也不一定达到现在淘宝的水平，道理很简单。

当然，很多文章都在强调，一个网站的发展水平，是逐渐的演变过来的，并不是一朝一夕的事情。虽然目前的情况互联网的泡沫越来越大，但是整个互联网技术的发展确实为我们提供了方便快捷的上网体验。下边是一张早期的淘宝官网的界面：

下边整理的是一些针对海量数据和高并发情况下的解决方案，技术水平有限，欢迎留言指导。

二、针对海量数据和高并发的主要解决方案

海量数据的解决方案：

使用缓存；
页面静态化技术；
数据库优化；
分离数据库中活跃的数据；
批量读取和延迟修改；
读写分离；
使用NoSQL和Hadoop等技术；
分布式部署数据库；
应用服务和数据服务分离；
使用搜索引擎搜索数据库中的数据；
进行业务的拆分；

高并发情况下的解决方案：

应用程序和静态资源文件进行分离；
页面缓存；
集群与分布式；
反向代理；
CDN；

三、海量数据的解决方案

（1）使用缓存

网站访问数据的特点大多数呈现为“二八定律”：80%的业务访问集中在20%的数据上。

例如：在某一段时间内百度的搜索热词可能集中在少部分的热门词汇上；新浪微博某一时期也可能大家广泛关注的主题也是少部分事件。

总的来说就是用户只用到了总数据条目的一小部分，当网站发展到一定规模，数据库IO操作成为性能瓶颈的时候，使用缓存将这一小部分的热门数据缓存在内存中是一个很不错的选择，不但可以减轻数据库的压力，还可以提高整体网站的数据访问速度。

使用缓存的方式可以通过程序代码将数据直接保存到内存中，例如通过使用Map或者ConcurrentHashMap；另一种，就是使用缓存框架：Redis、Ehcache、Memcache等。

使用缓存框架的时候，我们需要关心的就是什么时候创建缓存和缓存失效策略。

缓存的创建可以通过很多的方式进行创建，具体也需要根据自己的业务进行选择。例如，新闻首页的新闻应该在第一次读取数据的时候就进行缓存；对于点击率比较高的文章，可以将其文章内容进行缓存等。

内存资源有限，选择如何创建缓存是一个值得思考的问题。另外，对于缓存的失效机制也是需要好好研究的，可以通过设置失效时间的方式进行设置；也可以通过对热门数据设置优先级，根据不同的优先级设置不同的失效时间等；

需要注意的是，当我们删除一条数据的时候，我们要考虑到删除该条缓存，还要考虑在删除该条缓存之前该条数据是否已经到达缓存失效时间等各种情况！

使用缓存的时候还要考虑到缓存服务器发生故障时候如何进行容错处理，是使用N多台服务器缓存相同的数据，通过分布式部署的方式对缓存数据进行控制，当一台发生故障的时候自动切换到其他的机器上去；还是通过Hash一致性的方式，等待缓存服务器恢复正常使用的时候重新指定到该缓存服务器。Hash一致性的另一个作用就是在分布式缓存服务器下对数据进行定位，将数据分布在不用缓存服务器上。关于数据缓存的Hash一致性也是一个比较打的问题，这里只能大致描述一下，关于Hash一致性的了解，推荐一篇文章：http://blog.csdn.net/liu765023051/article/details/49408099

（2）页面静态化技术

使用传统的JSP界面，前端界面的显示是通过后台服务器进行渲染后返回给前端游览器进行解析执行，如下图：