自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(199)
  • 收藏
  • 关注

转载 那些经典算法:贪心算法

贪心算法和分治算法、动态规划算法、回溯算法都是一种编程思想,深入理解这些编程思想,我们也可以根据实际情况设计自己的算法。一 贪心算法原理贪心算法的原理比较简单,就是对问题求解的时候,每步都选择当前的最优解,然后已期望得到全局最优解。贪心算法的适用场景是每次选择是没有状态的,也就是不会对后面的步骤产生影响。二 贪心算法举例同样用老师课件中的两个例子:背包问题:假如我们有...

2019-09-21 12:09:00 341

转载 ES容易忽视的集群配置

一 前言目前生产系统由Solr转ES了,在这边就记录下在使用过程中容易忽视的配置吧,其实我也是才用,如果有什么错误的地方,多指正。二、配置1、ES的段合并是限速设置默认是20MB/s ,如果是SSD磁盘建议增大:```PUT /_cluster/settings{ "persistent" : { "indices.store.throttle.max...

2018-07-20 12:11:00 347

转载 Hadoop集群datanode磁盘不均衡的解决方案【转】

一、引言:Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等。当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。二、问题:因业务需要搭建一个新hadoop集群,并将老的hadoop集群中的数据...

2018-07-19 21:11:00 379

转载 ELK & ElasticSearch 5.1 基础概念及配置文件详解【转】

转自:https://blog.csdn.net/zxf_668899/article/details/54582849配置文件基本概念接近实时NRT集群cluster索引index文档document映射mapping类型type分片shards副本replicas数据恢复recovery数据源River...

2018-07-18 10:12:00 113

转载 干货 | Elasticsearch 集群健康值红色终极解决方案【转】

题记Elasticsearch当清理缓存( echo 3 > /proc/sys/vm/drop_caches )的时候,出现如下集群健康值:red,红色预警状态,同时部分分片都成为灰色。查看Elasticsearch启动日志会发现如下:集群服务超时连接的情况。bserver: timeout notification from cluster service. t...

2018-07-17 11:45:00 573

转载 严选 | Elasticsearch史上最全最常用工具清单【转】

1、题记工欲善其事必先利其器,ELK Stack的学习和实战更是如此,特将工作中用到的“高效”工具分享给大家。希望能借助“工具”提高开发、运维效率!2、工具分类概览2.1 基础类工具1、Head插件1)功能概述:ES集群状态查看、索引数据查看、ES DSL实现(增、删、改、查操作)比较实用的地方:json串的格式化2)地址:http://mobz.gi...

2018-07-05 11:12:00 227

转载 【基础篇】elasticsearch之索引模板Template[转]

一,模板简述:template大致分成setting和mappings两部分:索引可使用预定义的模板进行创建,这个模板称作Index templates。模板设置包括settings和mappings,通过模式匹配的方式使得多个索引重用一个模板。1. settings主要作用于index的一些相关配置信息,如分片数、副本数,tranlog同步条件、refresh等。2. mappin...

2018-07-05 11:01:00 361

转载 Elasticsearch常用配置及性能参数[转]

cluster.name: estest 集群名称node.name: “testanya” 节点名称node.master: false 是否主节点node.data: true 是否存储数据index.store.type: niofs 读写文件方式index.cache.field.type: soft 缓存类型bootstrap.mlockall: tr...

2018-07-04 10:54:00 143

转载 Elasticsearch 性能监控基础【转】

https://blog.csdn.net/yangwenbo214/article/details/74000458转载于:https://www.cnblogs.com/seaspring/p/9262182.html

2018-07-04 10:49:00 73

转载 让Elasticsearch集群冷热分离、读写分离【转】

转自:https://blog.csdn.net/jiao_fuyou/article/details/50511255根据Elasticsearch中文社区《ES冷热分离(读写分离) hot, stale 场景》一篇整理的。一、冷热分离按《控制Elasticsearch分片和副本的分配》来设置,将hot,stale数据分到不同的集群上去hot集群只保留最近一天或两天...

2018-07-04 10:47:00 299

转载 刨根问底 | Elasticsearch 5.X集群多节点角色配置深入详解【转】

转自:https://blog.csdn.net/laoyang360/article/details/782904841、问题引出ES5.X节点类型多了ingest节点类型。针对3个节点、5个节点或更多节点的集群,如何配置节点角色才能使得系统性能最优呢?2、ES2.X及之前版本节点角色概述3、ES5.X节点角色清单由于其他几种类型节点和用途都很好理解,无非主...

2018-07-03 14:50:00 93

转载 ElasticSearch 内存那点事【转】

“该给ES分配多少内存?”“JVM参数如何优化?““为何我的Heap占用这么高?”“为何经常有某个field的数据量超出内存限制的异常?““为何感觉上没多少数据,也会经常Out Of Memory?”以上问题,显然没有一个统一的数学公式能够给出答案。 和数据库类似,ES对于内存的消耗,和很多因素相关,诸如数据总量、mapping设置、查询方式、查询频度等等。默认的设置虽开箱即用,但不能...

2018-06-26 23:36:00 108

转载 Zookeeper之Zookeeper的Client的分析【转】

Zookeeper之Zookeeper的Client的分析1)几个重要概念ZooKeeper:客户端入口Watcher:客户端注册的callbackZooKeeper.SendThread:IO线程ZooKeeper.EventThread:事件处理线程,处理各类消息callbackClientCnxnSocket...

2018-06-23 08:08:00 104

转载 Zookeeper之Zookeeper底层客户端架构实现原理(转载)

Zookeeper的Client直接与用户打交道,是我们使用Zookeeper的interface。了解ZK Client的结构和工作原理有利于我们合理的使用ZK,并能在使用中更早的发现问题。本文将在研究源码的技术上讲述ZK Client的工作原理及内部工作机制。在看完ZK Client的大致架构以后我希望能有一种简单的方式描述ZK Client的基本结构,想来想去我觉得还是图片比较...

2018-06-23 08:06:00 157

转载 elasticsearch 性能调优

所有的修改都可以在elasticsearch.yml里面修改,也可以通过api来修改。推荐用api比较灵活1.不同分片之间的数据同步是一个很大的花费,默认是1s同步,如果我们不要求实时性,我们可以执行如下:$ curl -XPUT 'http://localhost:9200/twitter/' -d '{ "settings" : { "in...

2018-06-19 12:53:00 110

转载 ElasticSearch性能优化策略【转】

ElasticSearch性能优化主要分为4个方面的优化。一、服务器部署二、服务器配置三、数据结构优化四、运行期优化一、服务器部署1、增加1-2台服务器,用于负载均衡节点elasticSearch的配置文件中有2个参数:node.master和node.data。这两个参 数搭配使用时,能够帮助提供服务器性能。1.1> node.master:...

2018-06-19 12:39:00 126

转载 elasticsearch中 refresh 和flush区别【转】

elasticsearch中有两个比较重要的操作:refresh 和 flushrefresh操作当我们向ES发送请求的时候,我们发现es貌似可以在我们发请求的同时进行搜索。而这个实时建索引并可以被搜索的过程实际上是一次es 索引提交(commit)的过程,如果这个提交的过程直接将数据写入磁盘(fsync)必然会影响性能,所以es中设计了一种机制,即:先将index-buffer...

2018-06-19 12:38:00 63

转载 我理解的朴素贝叶斯模型【转】

转自:http://www.cnblogs.com/nxld/p/6607943.html我想说:“任何事件都是条件概率。”为什么呢?因为我认为,任何事件的发生都不是完全偶然的,它都会以其他事件的发生为基础。换句话说,条件概率就是在其他事件发生的基础上,某事件发生的概率。条件概率是朴素贝叶斯模型的基础。假设,你的xx公司正在面临着用户流失的压力。虽然,你能计算用户整体流失...

2017-09-24 22:17:00 186

转载 为什么zookeeper会导致磁盘IO高【转】

由于早期的storm版本心跳信息严重依赖zookeeper,心跳风暴会导致zookeeper的事务日志频繁的写磁盘,带来的问题首当其冲的是磁盘IO会爆掉。优化思路将zookeeper事务的日志放入内存中,降低对磁盘的依赖,受内存空间容量限制,需要控制事务日志大小。这个方案的风险就是一旦机房断电会导致zookeeper中的部分数据丢失,所以特别重要的数据...

2017-09-14 16:08:00 392

转载 从一道面试题来认识java类加载时机与过程【转】

说明:本文的内容是看了《深入理解Java虚拟机:JVM高级特性与最佳实践》后为加印象和理解,便记录了重要的内容。1 开门见山以前曾经看到过一个java的面试题,当时觉得此题很简单,可是自己把代码运行起来,可是结果并不是自己想象的那样。题目如下:class SingleTon { private static SingleTon singleTon = ...

2017-07-24 11:56:00 71

转载 GC调优在Spark应用中的实践[转]

作者:仲浩 出处:《程序员》电子刊5月B摘要:Spark立足内存计算,常常需要在内存中存放大量数据,因此也更依赖JVM的垃圾回收机制。与此同时,它也兼容批处理和流式处理,对于程序吞吐量和延迟都有较高要求,因此GC参数的调优在Spark应用实践中显得尤为重要。Spark是时下非常热门的大数据计算框架,以其卓越的性能优势、独特的架构、易用的用户接口和丰富的分析计...

2017-07-10 22:34:00 131

转载 HBase写入性能改造(续)--MemStore、flush、compact参数调优及压缩卡的使用【转】

首先续上篇测试:经过上一篇文章中对代码及参数的修改,Hbase的写入性能在不开Hlog的情况下从3~4万提高到了11万左右。本篇主要介绍参数调整的方法,在HDFS上加上压缩卡,最后能达到的写入性能为17W行每秒(全部测试都不开Hlog)。上篇测试内容:详情 http://blog.csdn.net/kalaamong/article/detai...

2017-07-04 17:57:00 113

转载 HBase写入性能及改造——multi-thread flush and compaction(续:详细测试数据)[转]

转载:http://blog.csdn.net/kalaamong/article/details/7290192接上文啊:测试机性能CPU16*Intel(R) Xeon(R) CPU E5620 @ 2.40GHzMEMORY48GBDISK12*SATA 2TBNET4*1GbEthernet...

2017-07-04 17:56:00 82

转载 HA&Federation【转】

转自:http://blog.csdn.net/tutucute0000/article/details/39756123从nameNode1、namenode2克隆出namenode3、namenode4,分别作为1、2的standby node。把datanode2、3、4作为namenode1的jounalnodes,datanode4、5、6作为namenode2的jou...

2017-06-28 11:05:00 265

转载 spark读取hdfs数据本地性异常【转】

在分布式计算中,为了提高计算速度,数据本地性是其中重要的一环。不过有时候它同样也会带来一些问题。一.问题描述在分布式计算中,大多数情况下要做到移动计算而非移动数据,所以数据本地性尤其重要,因此我们往往也是将hdfs和spark部署在相同的节点上,有些人可能会发现即使他已经这么做了,在spark的任务中的locality还是ANY,这说明所有的数据都是走的网络IO。...

2017-06-01 17:40:00 97

转载 HBase最佳实践-用好你的操作系统

终于又切回HBase模式了,之前一段时间因为工作的原因了解接触了一段时间大数据生态的很多其他组件(诸如Parquet、Carbondata、Hive、SparkSQL、TPC-DS/TPC-H等),虽然只是走马观花,但也受益良多。对视野、思维模式都有极其重要的作用,至少,扩展了大数据领域的对话圈。这里也斗胆建议朋友能在深入研究一门学问的同时博览周边学问,相信必然会大有裨益。来说正题...

2017-05-24 12:09:00 225

转载 HBase scan setBatch和setCaching的区别【转】

转自:http://blog.csdn.net/caoli98033/article/details/44650497HBase的查询实现只提供两种方式:1、按指定RowKey获取唯一一条记录,get方法(org.apache.hadoop.hbase.client.Get)2、按指定的条件获取一批记录,scan方法(org.apache.Hadoop.Hbase.clie...

2017-05-16 16:13:00 76

转载 Spark SQL编程指南(Python)【转】

转自:http://www.cnblogs.com/yurunmiao/p/4685310.html前言Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD:SchemaRDD。SchemaRDD类似于传统关系型数据库的一张表,由两部分组成:Rows:数据行对象Schem...

2017-05-14 15:21:00 481

转载 Spark(Hive) SQL中UDF的使用(Python)【转】

相对于使用MapReduce或者Spark Application的方式进行数据分析,使用Hive SQL或Spark SQL能为我们省去不少的代码工作量,而Hive SQL或Spark SQL本身内置的各类UDF也为我们的数据处理提供了不少便利的工具,当这些内置的UDF不能满足于我们的需要时,Hive SQL或Spark SQL还为我们提供了自定义UDF的相关接口,方便我们根据自己的需...

2017-05-14 15:15:00 212

转载 Spark SQL inferSchema实现原理探微(Python)【转】

使用Spark SQL的基础是“注册”(Register)若干表,表的一个重要组成部分就是模式,Spark SQL提供两种选项供用户选择:(1)applySchemaapplySchema的方式需要用户编码显示指定模式,优点:数据类型明确,缺点:多表时有一定的代码工作量。(2)inferSchemainferSchema的方式无...

2017-05-14 15:14:00 225

转载 Spark SQL利器:cacheTable/uncacheTable【转】

转自:http://www.cnblogs.com/yurunmiao/p/4936583.htmlSpark相对于Hadoop MapReduce有一个很显著的特性就是“迭代计算”(作为一个MapReduce的忠实粉丝,能这样说,大家都懂了吧),这在我们的业务场景里真的是非常有用。假设我们有一个文本文件“datas”,每一行有三列数据,以“\t”分隔,模拟生成文件的...

2017-05-14 15:12:00 140

转载 Spark使用CombineTextInputFormat缓解小文件过多导致Task数目过多的问题【转】

转自:http://www.cnblogs.com/yurunmiao/p/5195754.html目前平台使用Kafka + Flume的方式进行实时数据接入,Kafka中的数据由业务方负责写入,这些数据一部分由Spark Streaming进行流式计算;另一部分数据则经由Flume存储至HDFS,用于数据挖掘或机器学习。HDFS存储数据时目录的最小逻辑单位为“小时”,为了保证数据...

2017-05-14 15:08:00 264

转载 ExecutorService-10个要诀和技巧【转】

http://ifeve.com/executorservice-10-tips-and-tricks/转载于:https://www.cnblogs.com/seaspring/p/6846878.html

2017-05-12 18:43:00 76

转载 kafka多线程消费及处理和手动提交处理方案设计[转]

转自:http://blog.csdn.net/haoyifen/article/details/54692503kafka与其他消息队列不同的是, kafka的消费者状态由外部( 消费者本身或者类似于Zookeeper之类的外部存储 )进行维护, 所以kafka的消费就更加灵活, 但是也带来了很多的问题, 因为客户端消费超时被判定挂掉而消费者重新分配分区, 导致重复消费, 或者客户...

2017-05-08 10:47:00 93

转载 漫游Kafka之过期数据清理【转】

转自:http://blog.csdn.net/honglei915/article/details/49683065Kafka将数据持久化到了硬盘上,允许你配置一定的策略对数据清理,清理的策略有两个,删除和压缩。数据清理的方式删除log.cleanup.policy=delete启用删除策略直接删除,删除后的消息不可恢复。可配置以下两个策略:清理超过指定时间清理: l...

2017-05-08 10:47:00 67

转载 Tensorflow网址

https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/1-1-why/ 莫烦视频学习http://wiki.jikexueyuan.com/project/tensorflow-zh/how_tos/threading_and_queues.html 极客学院转载于:https://www.cnblo...

2017-04-27 19:23:00 103

转载 TensorFlow学习路径【转】

作者:黄璞链接:https://www.zhihu.com/question/41667903/answer/109611087来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。前言:其实TensorFlow本身仅仅是一个分布式的高性能计算框架,想要用TF做深度学习,仅仅学习这个框架本身是没有太大意义的。因此应该将TF看作技术路线中的一个核心点,去掌握...

2017-04-27 18:14:00 244

转载 深度 | 机器学习敲门砖:任何人都能看懂的TensorFlow介绍【转】

转自:http://oicwx.com/detail/1161517选自 kdnuggets作者:Soon Hin Khor机器之心编译参与:Rick、吴攀、李亚洲本文是日本东京 TensorFlow 聚会联合组织者 Hin Khor 所写的 TensorFlow 系列介绍文章的前两部分,自称给出了关于 TensorFlow 的 gentlest 的介绍。这...

2017-04-27 18:02:00 227

转载 TensorFlow学习笔记(8)--网络模型的保存和读取【转】

转自:http://blog.csdn.net/lwplwf/article/details/62419087之前的笔记里实现了softmax回归分类、简单的含有一个隐层的神经网络、卷积神经网络等等,但是这些代码在训练完成之后就直接退出了,并没有将训练得到的模型保存下来方便下次直接使用。为了让训练结果可以复用,需要将训练好的神经网络模型持久化,这就是这篇笔记里要写的东西。T...

2017-04-26 09:08:00 68

转载 Linux 关于Transparent Hugepages的介绍【转】

透明大页介绍Transparent Huge Pages的一些官方介绍资料:Transparent Huge Pages(THP)are enabled by default in RHEL 6 for all applications. The kernel attempts to allocate hugepages whenever possible and any L...

2017-04-18 17:39:00 127

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除