笔记
ZHOUSHUPENG
这个作者很懒,什么都没留下…
展开
-
Centos制作本地安装源-本地封装需要的软件
安装createrepoyum install -y createrepo下载rpm包到本地vi /etc/yum.conf将keepcache的值设置为1;这样就可以将yum安装时的rpm包保存在 /var/cache/yum下面创建本地源1.新建本地源目录mkdir /local-yum/将安装所需的包放置到创建的目录中,注意依赖的包文件 2.在/etc/yum.repos.d/下面创建一个repo文件[local-yum]name=local-yumbaseurl=f原创 2021-03-08 16:43:00 · 358 阅读 · 0 评论 -
Apache 2 Test Page问题的解决办法
安装并配置完成Apache2.2和php 5.2.14后,首次用httpd启动时出现Apache 2 Test Page,并有如下提示: This page is used to test the proper operation of the Apache HTTP server after it has been installed.安装并配置完成Apache2.2和php 5.2.14后,首次用httpd启动时出现Apache 2 Test Page,并有如下提示:This page is use原创 2021-02-23 16:33:58 · 6408 阅读 · 0 评论 -
centos虚拟机Failed to start LSB: Bring up/down错误解决方法
linux下RTNETLINK answers: File exists的解决方案重启网卡时 出现 :RTNETLINK answers: File exists 提示以下是网卡出来错误的解决方法:第一种: 和 NetworkManager 服务有冲突,这个好解决,直接关闭 NetworkManger 服务就好了, service NetworkManager stop,并且禁止开机启动 chkconfig NetworkManager off 。之后重启就好了。第二种:和配置文件的MAC地址不匹原创 2020-12-22 15:31:34 · 14351 阅读 · 5 评论 -
CentOS6 YUM 源失效问题解决办法
CentOS6 YUM 源失效问题解决办法问题描述Yum 源失效,无法正常使用 Yum,错误信息如下:http://mirrors.aliyun.com/centos/6/updates/x86_64/repodata/repomd.xml: [Errno 14] PYCURL ERROR 22 - “The requested URL returned error: 404 Not Found”尝试其他镜像。http://mirrors.aliyuncs.com/centos/6/updates原创 2020-12-16 18:17:30 · 4798 阅读 · 11 评论 -
HBASE优化写入速度
HBASE优化写入速度(1)hbase.regionserver.handler.count=100 (原始值30)(2)HTable htable = new HTable(config, tablename); htable.setWriteBufferSize(10 * 1024 * 1024); htable.setAutoFlush(false);设置buffer的容量,例子中设置了10MB的buffer容量。禁止auto flush。(3)Put put = new Put(ro原创 2020-08-05 16:14:50 · 537 阅读 · 1 评论 -
大数据之分布式搜索引擎_5.你们公司生产环境的分布式搜索引擎是怎么部署的呢?
1、面试题es生产集群的部署架构是什么?每个索引的数据量大概有多少?每个索引大概有多少个分片?2、面试官心里分析这个问题,包括后面的redis什么的,谈到es、redis、mysql分库分表等等技术,面试必问!就是你生产环境咋部署的?说白了,这个问题没啥技术含量,就是看你有没有在真正的生产环境里干过这事儿!有些同学可能是没在生产环境中干过的,没实际去拿线上机器部署过es集群,也没实际玩儿过...原创 2019-05-22 23:32:59 · 144 阅读 · 0 评论 -
大数据之分布式搜索引擎_6.总结一下分布式搜索引擎相关问题的面试技巧
消息队列、分布式搜索引擎其实如果我是面试官的话,我如果感觉你都把刚才那些问题都答出来了,我可能会继续刨根问底,深挖,问你,直到把你给问倒消息队列,kafka,复制的底层原理,leader选举的算法,增加partition以后的rebalance算法,扣很多很多的细节,如何优化kafka写入的吞吐量其实这块如果挖深了可以问的极其深,如果是我来深挖,可能会挖到es底层的相关度评分算法(TF/ID...原创 2019-05-23 00:18:49 · 221 阅读 · 0 评论 -
大型电商日志分析项目----2.项目数据元分析
一、概述该文档的主要作用是为了开发人员参考可以参考本文档,了解java sdk的集成方式以及提供的各种不同的方法。注意:由于在本次项目中java sdk的作用主要就是发送支付成功/退款成功的信息给nginx服务器,所有我们这里提供的是一个简单版本的java sdk。二、Java sdk执行工作流工作流如下所示:(退款类似)三、分析1、程序后台事件分析本项目中在程序后台只会出发charg...原创 2019-05-24 00:12:36 · 745 阅读 · 0 评论 -
大型电商日志分析项目----3.项目数据流图
原创 2019-05-24 00:21:58 · 1827 阅读 · 0 评论 -
大型电商日志分析项目----4.js_sdk核心代码
核心JS代码(function() {var CookieUtil = {// get the cookie of the key is nameget : function(name) {var cookieName = encodeURIComponent(name) + “=”, cookieStart = document.cookie.indexOf(cookieName),...原创 2019-05-24 00:33:29 · 161 阅读 · 0 评论 -
大数据之分布式搜索引擎_4.分布式搜索引擎写入和查询的工作流程是什么样的?
1、面试题es在数据量很大的情况下(数十亿级别)如何提高查询效率啊?2、面试官心里分析问这个问题,是肯定的,说白了,就是看你有没有实际干过es,因为啥?es说白了其实性能并没有你想象中那么好的。很多时候数据量大了,特别是有几亿条数据的时候,可能你会懵逼的发现,跑个搜索怎么一下5秒10秒,坑爹了。第一次搜索的时候,是510秒,后面反而就快了,可能就几百毫秒。你就很懵,每个用户第一次访问都会比...原创 2019-05-22 23:31:40 · 225 阅读 · 0 评论 -
大数据之分布式搜索引擎_3.分布式搜索引擎写入和查询的工作流程是什么样的?
1、面试题es写入数据的工作原理是什么啊?es查询数据的工作原理是什么啊?2、面试官心理分析问这个,其实面试官就是要看看你了解不了解es的一些基本原理,因为用es无非就是写入数据,搜索数据。你要是不明白你发起一个写入和搜索请求的时候,es在干什么,那你真的就是。。。。对es基本就是个黑盒,你还能干啥?你唯一能干的就是用es的api读写数据了。。。要是出点什么问题,你啥都不知道,那还能指望你...原创 2019-05-22 23:28:49 · 121 阅读 · 0 评论 -
大数据之分布式搜索引擎_2.分布式搜索引擎的架构是怎么设计的?为啥是分布式的?
1、面试题es的分布式架构原理能说一下么(es是如何实现分布式的啊)?2、面试官心里分析在搜索这块,lucene是最流行的搜索库。几年前业内一般都问,你了解lucene吗?你知道倒排索引的原理吗?现在早已经out了,因为现在很多项目都是直接用基于lucene的分布式搜索引擎——elasticsearch,简称为es。而现在分布式搜索基本已经成为大部分互联网行业的java系统的标配,其中尤为...原创 2019-05-22 23:26:49 · 243 阅读 · 0 评论 -
大数据之消息队列_2.如何保证其高可用性?
(1)RabbitMQ的高可用性RabbitMQ是比较有代表性的,因为是基于主从做高可用性的,我们就以他为例子讲解第一种MQ的高可用性怎么实现。rabbitmq有三种模式:单机模式,普通集群模式,镜像集群模式1)单机模式就是demo级别的,一般就是你本地启动了玩玩儿的,没人生产用单机模式2)普通集群模式意思就是在多台机器上启动多个rabbitmq实例,每个机器启动一个。但是你创建的q...原创 2019-05-13 23:09:38 · 213 阅读 · 0 评论 -
大数据之消息队列_3.消息队列出现了重复数据,如何数据幂等性?
首先就是比如rabbitmq、rocketmq、kafka,都有可能会出现消费重复消费的问题,正常。因为这问题通常不是mq自己保证的,是给你保证的。然后我们挑一个kafka来举个例子,说说怎么重复消费吧。kafka实际上有个offset的概念,就是每个消息写进去,都有一个offset,代表他的序号,然后consumer消费了数据之后,每隔一段时间,会把自己消费过的消息的offset提交一下,代表...原创 2019-05-13 23:53:46 · 991 阅读 · 0 评论 -
大型电商日志分析项目----1.项目需求分析
一、概述该文档的主要目标就是描述本次项目最终七个分析模块的界面展示。这里使用之前介绍的的数据展示界面mode。二、工作流在我们的demo展示中,我们使用jquery+highcharts的方式调用程序后台提供的rest api接口,获取json数据,然后通过jquery+css的方式进行数据展示。工作流程如下:三、分析1、总述在本次项目中我们分别从七个大的角度来进行分析,分别为:用户...原创 2019-05-12 19:33:17 · 1527 阅读 · 2 评论 -
大数据之消息队列_4.消息队列出现了数据丢失
1、面试题如何保证消息的可靠性传输(如何处理消息丢失的问题)?2、面试官心里分析这个是肯定的,用mq有个基本原则,就是数据不能多一条,也不能少一条,不能多,就是刚才说的重复消费和幂等性问题。不能少,就是说这数据别搞丢了。那这个问题你必须得考虑一下。如果说你这个是用mq来传递非常核心的消息,比如说计费,扣费的一些消息,因为我以前设计和研发过一个公司非常核心的广告平台,计费系统,计费系统是很重...原创 2019-05-22 20:24:46 · 358 阅读 · 0 评论 -
大数据之消息队列_5.消息队列如何保证数据顺序执行?
1、面试题如何保证消息的顺序性?2、面试官心里分析其实这个也是用MQ的时候必问的话题,第一看看你了解不了解顺序这个事儿?第二看看你有没有办法保证消息是有顺序的?这个生产系统中常见的问题。3、面试题剖析我举个例子,我们以前做过一个mysql binlog同步的系统,压力还是非常大的,日同步数据要达到上亿。mysql -> mysql,常见的一点在于说大数据team,就需要同步一个my...原创 2019-05-22 21:05:17 · 616 阅读 · 0 评论 -
大数据之消息队列_6.数据积压问题
1、面试题如何保证消息的顺序性?2、面试官心里分析其实这个也是用MQ的时候必问的话题,第一看看你了解不了解顺序这个事儿?第二看看你有没有办法保证消息是有顺序的?这个生产系统中常见的问题。3、面试题剖析我举个例子,我们以前做过一个mysql binlog同步的系统,压力还是非常大的,日同步数据要达到上亿。mysql -> mysql,常见的一点在于说大数据team,就需要同步一个my...原创 2019-05-22 23:17:24 · 1621 阅读 · 0 评论 -
大数据之消息队列_7.如何进行架构设计
1、面试题如果让你写一个消息队列,该如何进行架构设计啊?说一下你的思路2、面试官心里分析其实聊到这个问题,一般面试官要考察两块:(1)你有没有对某一个消息队列做过较为深入的原理的了解,或者从整体了解把握住一个mq的架构原理(2)看看你的设计能力,给你一个常见的系统,就是消息队列系统,看看你能不能从全局把握一下整体架构设计,给出一些关键点出来说实话,我一般面类似问题的时候,大部分人基本都...原创 2019-05-22 23:21:11 · 182 阅读 · 0 评论 -
大数据之消息队列_8.相关面试技巧
一般而言,如果一个面试官水平还算不错,会沿着从浅入深的环节深入挖一个点。比如我吧,其实按照这个思路可以一直问下去,除了这里的7个问题之外,甚至能挑着你熟悉的一个mq一直问到源码级别非常底层。我还可能会结合项目来仔细问,我可能会先让你给我详细说说你的业务细节,然后将你的业务跟这些mq的问题场景结合起来,看看你每个细节是怎么处理的。但是确实因为我们这个是面试突击型课程,不是什么kafka源码剖析课,...原创 2019-05-22 23:22:44 · 107 阅读 · 0 评论 -
大数据之分布式搜索引擎_1.分布式搜索引擎的4个连环炮
业内目前来说事实上的一个标准,就是分布式搜索引擎一般大家都用elasticsearch,es,solr,但是确实,这两年大家一般都用更加易用的es。lucene如果你确实真的不连lucene都不知道是什么?我觉得你确实不应该,lucene底层的原理是一个东西,叫做倒排索引。太基础了。百度,搜索一下lucene入门,了解一下lucene是什么?倒排索引是什么?全文检索是什么?写个lucene的...原创 2019-05-22 23:24:29 · 271 阅读 · 0 评论 -
大数据之消息队列_1.为什么使用消息队列?消息队列有哪些优缺点?
为什么使用消息队列?消息队列有哪些优缺点?1,解耦、异步、削峰2、系统可用性降低、导致系统考虑的问题变多,系统的复杂度变高、一致性问题...原创 2019-05-10 23:10:25 · 1332 阅读 · 0 评论