孤独人生-CSDN博客

原创面试，究竟面什么？

在互联网这个行业里面，跳槽是一件极为常见的事情，所以，与之同步到来的一件事情就是面试。做为面试官，你会用一些面试题来考察候选人；做为应聘者，你要准备面试以拿到offer。那么：面试，究竟面什么？下面，通过我个人进行求职和参与面试的经历，做一些初步的总结。 1、专业能力首先，作为企业来说，招人是为了能够让其创造价值，所以候选人必须具...

2018-09-10 11:41:52 701

从Kafka日志拆分来看系统架构

下面是根据最近的工作内容来思考做事的方式，说是系统架构稍微有点标题党了，但是我感觉也可以说是广义的系统架构。一、做铺垫目前笔者在基础数据部门做实时计算相关的内容，近期接触到的主要工作是Kafka日志拆分，也就是把最基础的全量的日志Topic拆分成多个小的Topic，供业务方使用。其主要目的为：让业务方只关注自己需要的数据，让业务更加简单和专注降低业务方和K...

2018-08-01 14:36:17 575

原创 Flink 操作

Apache Flink是一个支持有边界的和无边界的数据流的有状态计算的框架。因为很多流式应用被设计成在最短的停机时间内持续运行，所以一个流式处理器必须提供卓越的失败恢复能力，同时提供工具在应用运行的时候监控和维护他们。 Flink非常关注流式处理的操作方面。下面，我们说明一下Flink的失败恢复机制并且列出他的管理和监控运行程序的特性。一、 24/7不间断地运行你的应用...

2018-07-18 23:40:06 809

原创程序猿，认清自己处于什么阶段

从标题来看，这个话题是一个比较大的概念，这个话题，其实是我从工作一年多以后，一直持续不断地在思考这个问题，而现在把这个做一个个人总结。曾经与一位同事聊天，谈到这话题，问他感觉自己现在处在什么阶段，他说：“我现在处在毕业一年的阶段！”所以，现在我想说的肯定不是这个，否则就无话可聊了~ 目前，我是一个工作四年的程序猿，按照个人经历大概分出以下四个阶段：1、被老司机带2、跟...

2018-07-09 12:52:38 358

原创 Flink 应用

Apache Flink 是一个支持有状态的计算的框架，它可以用来处理有边界的数据流和无边界的数据流。Flink 提供了多种不同抽象级别的API，并且提供对于常见的用例提供专用的函数库。一、为流式应用构建好的模块可以构建的并且被流式处理框架执行的应用类型是由框架是怎么来控制流、状态和事件来决定的。下面，我们将描述这些流式处理应用的构建块（building blocks），并且解释...

2018-07-06 16:44:45 638

Flink 架构

Flink是一个分布式的、有状态的计算框架，它可以处理无限的和有限的数据流。Flink原本设计的就是可以在所有的通常的集群环境，在内存中进行任意规模的计算。一、处理无边界的和有边界的数据流任何种类的数据都是以事件流的形式产生的，比如信用卡交易、传感器测量、机器日志或者用户在网站或者移动应用上的交互等，所有的这些数据都是以流的形式产生的。数据可以以有边界的或者无边界的流的形...

2018-07-04 20:56:35 619

Apache Flink 概览 - 有状态的流式计算

Flink的主要特性如下：一、所有的流式使用用例事件驱动的应用流式 & 批量分析数据 Pipelines & ETL二、保证正确性严格一次（Exactly-once）状态一致性基于消息时间（Event-time）的处理复杂的后期数据处理（Sophisticated late data handling）...

2018-07-03 15:50:48 755

原创 Flink window 的类型

一、Window Type1、Global windows 2、Tumbling windows 3、Sliding windows 4、Session windows 5、WindowAll 二、Physical Partitioning 1、Custom 2、Random 3、Rebalancin...

2018-06-22 18:14:34 487

热点资讯，一网打尽

http://leaderanking.com/ 领航榜单，用热榜引领你航游网络。全网热点，一网扫尽。为您提供丰富的、多类目的排行榜信息。这个是本人开发的一个小网站，吸收了多分类、多站点的排行榜，方便您进行热点咨询的查看，谢谢支持~ 如果您有什么意见或者建议，可以联系我：henushang@qq.com ,或者iteye的站内消息也可以。...

2018-06-19 08:52:11 203

原创 Java中的核心知识点

一、多线程篇1、Java自带的线程池的类别、实现以及相关特性2、ThreadLocal 类3、synchronized、volatile、Lock类

2018-04-15 15:11:43 156

原创 Kafka 文章大全

https://blog.csdn.net/u013573133/article/details/48142677

2018-03-28 14:11:41 180

JVM之基本的垃圾回收算法汇总

本章介绍基本的垃圾回收算法的，从不同的维度来划分回收的算法。参考文章：http://pengjiaheng.iteye.com/blog/520228

2018-01-20 23:04:46 134

思维导图-详细了解JVM和GC过程

今晚花了2个小时左右，看完了官方的一篇关于JVM和GC的文章，并且同时整理为思维导图，见下图。对于详细的垃圾回收过程，从Eden到old generation，在原文中有非常详细的介绍。后续会抽时间把原文章进行翻译的。并且思维导图的的原件也在附件中，有兴趣的可以下载。参考文章：http://www.oracle.com/webfolder/tec...

2018-01-18 00:04:31 249

ES常用操作

ES setting操作：curl -XPUT localhost:9200/_cluster/settings -d '{ "transient" : { "threadpool.search.queue_size" : 1000000 } }'

2018-01-16 11:39:37 200

工作原则和技巧总结

1、做事要有排期：任何一个工作在开始做的时候都要预估一个排期，自己要保证在排期内完成2、codereview：代码要互相review，任何改动都要提交review，如果其他人不在，自己也要把自己提交的cr地址发出来并且在注释中贴出来。3、上线以及线上问题处理：（1）上线要有checklist，必须检查checklist（2）尽量避免在周五下午和平时的晚上上线（3）上线时，尽量单个fe...

2017-12-26 23:36:34 183

Storm的容错性

Storm有几种不同的守护进程。Nimbus调度worker，Supervisor运行和杀死worker，log viewer 提供对于日志的访问方式，UI展示集群的状态。一、问：如果一个Worker死掉了，那么会发生什么？答：如果一个worker死掉了，那么supervisor会重启这个worker。如果这个worker在启动的时候持续失败，那么它将不能与Nimbus正常进行心跳...

2017-12-19 21:46:43 194

Spark系列文章列表

一、 Spark - Cluster Mode概述（翻译）

2017-12-09 02:09:47 178

Spark - Cluster Mode概述（翻译）

这个文档简要的介绍下Spark是怎么样在集群模式中运行的，以方便更容易的理解其涉及到的组件。可以通过阅读 application submission guide来了解怎么样在集群中运行应用程序。 ComponentsSpark应用程序作为独立的进程集运行，它们是由 main程序（称为driver程序）中的SparkContext 对象进行协调的。特别地，在集群上运行是，Spa...

2017-12-09 02:03:29 286

原创【转】Map Reduce & YARN

Map Reduce & YARN简介Apache Hadoop 是一个开源软件框架，可安装在一个商用机器集群中，使机器可彼此通信并协同工作，以高度分布式的方式共同存储和处理大量数据。最初，Hadoop 包含以下两个主要组件：Hadoop Distributed File System (HDFS) 和一个分布式计算引擎，该引擎支持以 MapReduce 作业的形式实现...

2017-10-10 19:14:50 196

原创面试题

公司A：1.讲讲你做的过的项目。项目里有哪些难点重点注意点呢？2.讲讲多线程吧，要是你，你怎么实现一个线程池呢？3.讲一下Mapreduce或者hdfs的原理和机制。map读取数据分片。4.shuffle 是什么？怎么调优？5.项目用什么语言写？ Scala？ Scala的特点？和Java的区别？6.理论基础怎么样，...

2017-09-21 14:47:32 289

ES的优化

一、查询优化查询条件的与或关系、查询顺序filter代替query使用_cache，强制缓存查询条件系统内存和JVM内存（最大32G）提升CPU和SSD，更具具体业务场景keyword代替long或者integer...

2017-09-19 18:52:25 336

原创【转】深度解构DMP的概念面具

北京2015年10月26日电 /美通社/ -- 面对越来越多、越来越分散的线上和线下渠道、越来越难理解的在线新生代、层出不穷的新名词，企业各种焦虑但也不知道从何入手。因此，消费者画像、精准营销、大数据、O2O、SCRM（Social CRM）开始成为热门话题，大家都想抓住最“互联网”的营销方法。实际上这些热门话题是同一个东西，即：数据管理平台，也就是DMP。 DMP是大脑 D...

2017-09-08 18:48:17 776

原创 Storm 重启排查（续）

此文主要接 storm worker异常重启原因排查汇总这篇文章继续描述。上文中的第三点大概描述了一下造成重启的原因，这次又有一次详细的排查过程和思路供参考。一、背景今天，另一个同事反应，我们的一个任务在早上4点到10点之间会有严重的数据丢失，而这个时间点与一个数据导入任务的时间点是吻合的，经查看此任务的的数据量有将近5亿。因此，在这段时间内造成的影响还是挺大的，毕竟都是...

2017-08-30 17:55:45 1276

原创消息队列入门理解

消息队列（Message Queue）允许应用程序通过相互之间发送消息来通信。消息队列在目标队列繁忙的时候，提供一个临时的消息存储。下面我将从以下几个方面来介绍消息队列。1、什么是消息队列？2、使用消息队列可以带来什么好处？3、消息队列的基本分类一、什么是消息队列？队列是一个线性的先进先出的等待处理的事物的集合。消息队列是在两个应用之间发送的消息的队列。它包...

2017-07-15 18:29:22 227

storm worker异常重启原因排查汇总

此时此刻，正在等到6.18的到来，趁着没事写个博客，，， storm集群在worker down掉以后会自动启动新的woker，但是有很多情况下是感觉不应该重启的时候，woker重启了，因此就走上了排查woker重启的道路上~ 一、排查思路经过排查，主要总结有以下几种问题，会导致woker重启：1. 代码有未捕获的异常如下例子，因为处理的数据有异常，并且在代码中没有捕...

2017-06-18 01:50:06 1264

大数据架构技术

下图是近来学习和用到的大数据方面的技术，现在做一个总结。并且在总结的过程中，也进行更加进一步的学习和了解。以上为个人所接触到的大数据相关的一些技术，后续的章节将围绕这些技术展开，具体的介绍方式是从应用和原理两个方面进行。 1、大数据实时流架构（1）消息队列消息队列是在不同的应用间做数据传递的，现在常用的主要包括Kafka，redis 队列，Rab...

2017-05-19 11:59:33 438

原创 WMI Provider Host（wmiprvse.exe）占用CPU高的解决方案

新装windows8.1 发现WMI Provider Host（wmiprvse.exe）占用CPU非常高，有事会瞬间飙升到100%造成机器卡死几秒。寻找了很久找到了以下解决方案：1、首先要排除病毒或木马的可能。2、在运行里执行 services.msc启动系统服务。3、找到windows management Instrumentation 这个服务，右键点击选择属性查看该服务的相关依赖服务...

2017-04-19 18:22:24 18017

关于 Unable to locate xxx NamespaceHandler for XML schema namespace

遇见的 Unable to locate xxx NamespaceHandler for XML schema namespace 相关问题以后，目前总结主要有两种情况：1. 非spring的xml Schema报错这时候根据遇见的两次错误，基本上可以定位为缺少pom的依赖。因为有相应的jar包依赖，就会自动下载相关的xsd文件并且打包到jar文件中。 2. 遇见 ...

2017-02-07 14:50:22 157

程序设计原则

合理的业务逻辑设计可以避免80%产生的问题，剩下的20%，则需要一些额外的工作和辅助手动进行处理。现总结的程序设计的一些原则如下：程序内部设计原则对于非常严重认为不能容忍的异常，要中断程序；对于可以容忍的异常，要进行异常捕获和 error log 的提示。如对redis进行scan，某个key有问题，不应该影响其他的数据的处理；程序内部的各个模块的调用，要全面判断返回值，并且...

2017-01-04 11:40:45 127

个人总结--本科毕业两年半之际

啊~时光荏苒，岁月如梭。不知觉中本科已经毕业了将近两年半了。这两年间从超天才到京东，经历了从小公司到大公司的转变，无论在哪，都有自己独特的经历和感受，然而不变的是，每一天自己都在成长，都在学习，从技术到做人到做事。将来，不同的阶段看待事物的感受是不一样的，所以，趁学校辅导员姚老师让学长为学弟出一些建议的时机，我自己进行一下总结。或许，...

2016-11-15 00:47:23 185

原创 elasticsearch性能调优

集群规划独立的master节点，不存储数据, 数量不少于2数据节点(Data Node)查询节点(Query Node)，起到负载均衡的作用Linux系统参数配置文件句柄Linux中，每个进程默认打开的最大文件句柄数是1000,对于服务器进程来说，显然太小，通过修改/etc/security/limits.conf来增大打开最大句柄数* - nofile 6...

2016-11-08 14:46:31 541

原创 Elasticsearch2.X Doc values介绍

一、doc_values介绍doc values是一个我们再三重复的重要话题了，你是否意识到一些东西呢？搜索时，我们需要一个“词”到“文档”列表的映射排序时，我们需要一个“文档”到“词“列表的映射，换句话说，我们需要一个在倒排索引的基础上建立的“正排索引”这里的“正排索引”结构通常在其他系统中（如关系型数据库）被称为“列式存储”。本质上，它是在数据字段的一列上存储所有valu...

2016-11-08 14:03:14 190

原创 Linux查找文件内容的常用命令方法

Linux查找文件内容的常用命令方法。从文件内容查找匹配指定字符串的行：$ grep "被查找的字符串" 文件名例子：在当前目录里第一级文件夹中寻找包含指定字符串的.in文件grep "thermcontact" */*.in从文件内容查找与正则表达式匹配的行：$ grep –e “正则表达式” 文件名查找时不区分大小写：$ grep –i "被查找的字符串" 文件名查找匹配的行数：...

2016-11-02 15:01:34 160

Pig script failed to parse: NoViableAltException(84@[])

出现以下错误的主要原因就是filter 语句的逻辑有问题，可以看看by关键词后面的部分。ERROR 1200: Pig script failed to parse: NoViableAltException(84@[])org.apache.pig.impl.logicalLayer.FrontendException: ERROR 1000: Error during pars...

2016-11-01 18:32:33 768

原创 Kafka配置详解

############################# System ##############################唯一标识在集群中的ID，要求是正数。broker.id=0#服务端口，默认9092port=9092#监听地址，不设为所有地址host.name=debugo01 # 处理网络请求的最大线程数num.networ...

2016-08-08 13:50:09 119

原创【转】设置运行队列

作业提交到的队列：mapreduce.job.queuename作业优先级：mapreduce.job.priority Pig版本：SET mapreduce.job.queuename root.etl.distcp;SET mapreduce.job.priority HIGH; Hive版本：SET mapreduce.job.queuename=root...

2016-08-06 17:53:14 168

Redis 常用命令

MONITOR用来实时查看redis正在执行的命令，进行调试 SLOWLOG用来分析慢操作的日志

2016-06-17 12:57:38 100

搞爆storm集群的bug追踪过程

前两天，突然收到了QA的反馈，我跑程序的storm集群（20多台）所有机器CPU居高不下。这就让我非常莫名其妙了，我的程序在最近一次上线以后，已经连续运行了3天了，怎么会突然就有问题了呢？这时，我还是感觉程序不会有问题的，要不然怎么会正常运行了3天呢。。。因此我就对程序进行rebalance（为什么要这么做呢？我也不知道，就好像电脑有问题了重启就行了。。。）以及重启操作，但是都无济于...

2016-05-30 21:48:10 167

hive常用命令

1. 删除分区alter table user_info drop partition(dt='2016-03-15'); show create table app.app_uuid_pin_mapping;

2016-03-17 14:56:47 91

原创电商广告中常用的概念

点击率 CTR=（点击量/展现量）*100%平均点击价格 CPC=消费/点击量千次展现消费 CPM=（消费/展现量）*1000=CPC*CTR*1000转化率 CVR=（转化量/点击量）*100%平均转化成本 CPA=消费/转化量=CPC/CVR投资回报率 ROI=（收益-消费）/消费*100%=（利润/消费）*100%综合排名指数 CRI=质量度*出价 DSP：DSP(全称：De...

2016-03-14 11:44:46 517