[置顶] 分享我在2014架构师大会演讲材料<<基于用户画像的大数据挖掘实践>>

分享我在2014架构师大会演讲材料>,猛点这里...
阅读(5602) 评论(2)

[置顶] 基于redis的分布式缓存disgear开源到github上了

基于redis实现的分布式的缓存,支持数据切分到多台机器上,支持HA,支持读写分离和主节点失效自动选举                                  1. 需求       1) 性能 内存操作,读写性能要求比较高 2) 数据量 支持数据切分,分为多个Shard,每个shard负责一定范围的数据 3) 伸缩性 当单个节点的数据量比较大的时,可以对该节...
阅读(15394) 评论(5)

[置顶] 构建高并发高可用的电商平台架构实践

各个维度总结电商平台中的高并发高可用的架构实践,从架构设计的理念到平台的逻辑架构,以及到平台架构中各个模块的介绍...
阅读(195807) 评论(60)

给研发培训资料两篇(架构设计&大数据)

互联网架构设计理念漫谈大数据平台及在推荐广告的应用...
阅读(4254) 评论(1)

随机森林&GBDT算法以及在MLlib中的实现

决策树的一个缺点是容易出现过拟合,可以把利用融合的方式把各个弱模型集成起来,解决过拟合,提高模型的泛化能力。决策树和bagging 、boosting的思想结合在一起,诸如随机森林、GBDT,在数据挖掘中的预测分类、推荐广告以及搜索中的排序算法模型、搜索关键词的扩展推荐等等应用的非常广泛。先讲一下bagging和boosting方式的区别。Bagging的方式算是比较简单的,训练多个模型,利用每个...
阅读(9567) 评论(0)

决策树在MLib中的实现解析

决策树作为一种分类回归算法,在处理非线性、特征值缺少的数据方面有很多的优势,能够处理不相干的特征,并且对分类的结果通过树的方式有比较清晰的结构解释,但是容易过拟合,针对这个问题,可以采取对树进行剪枝的方式,还有一些融合集成的解决方案,比如随机森林RandomForest、GBDT (Gradient Boost Decision Tree)等,对于随机森林、GBDT在后面的章节进行介绍模型的训练过...
阅读(5233) 评论(1)

Spark streaming的Exactly-once容错HA机制

Spark streaming 1.2提供的基于WAL的容错机制(参考上一篇博文http://blog.csdn.net/yangbutao/article/details/44975627),可以保证数据的计算至少被执行一次,但是不能保证只执行一次,比如在kafka receiver写数据到WAL中后,往zookeeper写offset失败,那么在driver失效恢复后,由于offset还是之前...
阅读(2593) 评论(0)

逻辑回归算法分析及在MLlib中的实现剖析

逻辑回归作为分类算法的一种,在互联网领域中的预测、判别中应用的非常广泛,像广告投放中的点击率预估,推荐算法中的模型融合等等。本文简要介绍逻辑回归的算法,以及在MLlib中的实现解析。逻辑回归其实是一个分类问题,此类问题的模型训练,基本上分3步骤,第一步要寻找假设预测函数h,构造的假设函数为在线性回归的函数基础上,加上一个Sigmoid函数进行Norm,把函数值输出在0到1的范围内,函数的值有特殊的...
阅读(8010) 评论(0)

MLlib算法简介

主要的机器学习的算法目前在MLlib中都已经提供了,分类回归、聚类、关联规则、推荐、降维、优化、特征抽取筛选、用于特征预处理的数理统计方法、以及算法的评测...
阅读(14819) 评论(1)

Spark streaming在可用性方面的改进

Driver的容错性和可用性,在spark1.2发布版本中,spark streaming提供了HA机制...
阅读(2093) 评论(0)

Spark streaming&storm流计算的相关对比

spark streaming和Storm作为当今流行的实时流计算框架,已经在实时计算方案应用的非常广泛了,其中spark streaming是基于spark的一个扩展,比storm的出现要晚一些。本章节从以下几个角度对两者进行了阐述,可以作为选型方面的一个参考。A、 数据处理方式 Spark streaming是构建在spark上的实时流计算框架,利用时间批量窗口生成spark的计算输入源RDD...
阅读(4869) 评论(0)

spark&yarn&storm的资源管理分配对并发性的考量

在常用的计算框架中,无论是spark、storm、yarn,如何提高并发量,提高集群的整体吞吐量是需要考虑的问题,其中资源容量规划和资源申请,对APP任务的并行执行方面有比较多的影响,下面罗列一下以上计算框架在资源规划和资源申请方面的一些类比: 对于整个集群的处理能力来讲总是有限的,这个在很多资源管理调度框架中都有相应的总体容量的规划,每个APP或者JOB在申请资源执行时,也是需要提出多少资源的申请,集群再依照当前可用的资源,依据资源管理任务调度机制进行资源的分配和任务执行。资源的规划和申请一般都是以CPU...
阅读(2100) 评论(0)

漫谈搜素引擎的排序模型

万变不离其宗,搜索引擎的搜索结果排序算法模型,可以抽象为计算每一个doc的p(d|q),利用朴素贝叶斯算法原理,p(d|q)=p(q|d)*p(d)/p(q),p(q)对于每一个doc都是一样的,所以最终的排序打分是p(q|d)*p(d),p(q|d)是query和doc的匹配程度,p(d)是每个doc的本身的打分,而doc本身的打分可以定义的角度非常多,和诸多的因素有关。Lucene默认的排序算...
阅读(2797) 评论(1)
152条 共16页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:1026218次
    • 积分:9425
    • 等级:
    • 排名:第1846名
    • 原创:143篇
    • 转载:11篇
    • 译文:0篇
    • 评论:171条
    博客专栏
    最新评论