2015年12月_a936676463

转载 Atlas 、cobar

mysql-proxy是官方提供的mysql中间件产品可以实现负载平衡，读写分离，failover等，但其不支持大数据量的分库分表且性能较差。下面介绍几款能代替其的mysql开源中间件产品，Atlas，cobar，tddl，让我们看看它们各自有些什么优点和新特性吧。AtlasAtlas是由 Qihoo 360, Web平台部基础架构团队开发维护的一个基于MySQL协议的数据

2015-12-31 15:41:43 912

转载 Scala在挖财的应用实践

这次分享有三个方面，1是介绍一下挖财当前的开发情况和后端的架构， 2是挖财选择Scala的原因，3是挖财使用Scala相关的技术时碰到的问题以及经验。第一部分是团队的情况和后端技术的架构。近一年我们的开发团队从50人增长到了现在两百人，公司总人数扩张到600左右，技术人员占的比例跟国内大多互联网创业公司的比例差不多，1/3左右的样子，昨天大会上王天提到Twitter的工程师44%左右在

2015-12-31 15:22:28 1142

转载手机淘宝移动端接入网关基础架构演进之路

移动网络优化是超级App永恒的话题，对于无线电商来说更为重要，网络请求体验跟用户的购买行为息息相关，手机淘宝从过去的HTTP API网关，到2014年升级支持SPDY，2015年双十一自研高性能、全双工、安全的ACCS（阿里云通道服务)扛住双十一战场主要流量，无论是基础架构的演进、网络调优、协议的优化、异地多活、网络调度上都有不少宝贵的经验与大家分享。ACCS基于无线场景精心设计的双工

2015-12-30 14:29:22 1971

转载 python与逻辑回归

机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python，然后也想对一些机器学习算法加深下了解，所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍，所以就参考这本书的过程来学习了。这节学习的是逻辑回归（Logistic Regression），也算进入了比较正统的机器学习算法。啥叫正统呢？我概念里面机器学

2015-12-27 18:15:02 1467

转载从最大似然到EM详解

机器学习十大算法之一：EM算法。能评得上十大之一，让人听起来觉得挺NB的。什么是NB啊，我们一般说某个人很NB，是因为他能解决一些别人解决不了的问题。神为什么是神，因为神能做很多人做不了的事。那么EM算法能解决什么问题呢？或者说EM算法是因为什么而来到这个世界上，还吸引了那么多世人的目光。我希望自己能通俗地把它理解或者说明白，但是，EM这个问题感觉真的不太好用通俗的语言去说明白，

2015-12-27 17:24:09 1126

转载【大数据】新机遇：我的分布式机器学习故事

前言从毕业加入Google 开始做分布式机器学习，到后来转战腾讯广告业务，至今已经七年了。我想说说我见到的故事和我自己的实践经历。这段经历给我的感觉是：虽然在验证一个新的并行算法的正确性的时候，我们可以利用现有框架，尽量快速实现，但是任何一个有价值的机器学习思路，都值得拥有自己独特的架构。所以重点在有一个分布式操作系统，方便大家开发自己需要的架构(框架)，来支持相应的算法。

2015-12-23 19:56:33 2027

原创在MapReduce中实现logistic回归和LOESS

对MapReduce也用了一段时间，基本的数据处理都已比较熟悉，但目前用的S1的参数和直觉调的参数。这样下去不行啊，果断要开搞机器学习。虽然阿里给我们提供了Xlab，看起来也挺强大的，各种模型都很丰富，但作为一个不造轮子会死的程序猿，还是想实现自己的训练方法和模型，这也有利于后期的提高，所以就找了点资料研究了如何用MapReduce进行机器学习的训练。MapReduce的入门，可以参考这个文章

2015-12-20 10:27:09 3143

原创 MapReduce的组合式，迭代式，链式

1.比如我们输出的mapreduce结果，需要进入下一个mapreduce，该怎么解决？可以使用迭代式 2.那么什么是迭代式? 3.什么是依赖式？ 4.什么是链式？ 5.三种模式各自的应用场景是什么？1.迭代式mapreduce 一些复杂的任务难以用一次MapReduce处理完成，需要多次 MapReduce 才能完成任务，例如Pagrank，K-means算法都需要多次

2015-12-20 10:11:47 861

原创搜索与机器学习的两篇相关文章

http://www.docin.com/p-1280031037.htmlhttp://www.doc88.com/p-3781645801136.html

2015-12-19 21:23:20 667

转载寻找最优参数解：最速下降法，牛顿下降法，阻尼牛顿法，拟牛顿法DFP/BFGS

机器学习的一个重要组成部分是如何寻找最优参数解。本文就常见寻优方法进行总结，并给出简单python2.7实现，可能文章有点长，大家耐心些。寻找最优参数解，就是在一块参数区域上，去找到满足约束条件的那组参数。形象描述，比如代价函数是个碗状的，那我们就是去找最底部（代价最小）的那个地方的对应的参数值作为最优解。那么，如何找到那个底部的最优参数解呢，如何由一个初始值，一步一步地接近该最优解呢。寻优方

2015-12-19 21:18:00 1365

转载猜你喜欢-----推荐系统原理介绍

写在正文之前最近在做推荐系统，在项目组内做了一个分享。今天有些时间，就将逻辑梳理一遍，将ppt内容用文字沉淀下来，便于接下来对推荐系统的进一步研究。推荐系统确实是极度复杂，要走的路还很长。 A First Glance 为什么需要推荐系统——信息过载随着互联网行业的井喷式发展，获取信息的方式越来越多，人们从主动获取信息逐渐变成了被动接受信息，信息量也在

2015-12-19 18:45:36 1186

原创 CTR打分模型中为什么使用逻辑回归

个人觉得主要原因是广告点击率预测需要基于大规模的训练样本和特征。一般是十亿级别样本和亿级别的特征，甚至更多。逻辑回归由于模型简单，很适合用来学习大数据的问题。另外，逻辑回归做在线学习比较容易，处理速度也快。至于为什么广告需要基于大数据，主要是要记忆很多过去的行为模式。机器学习就是记忆和泛化。数据多了，才有学习和记忆的基础。

2015-12-19 11:14:00 2176

转载 Logistic regression 逻辑回归概述

Logistic regression （逻辑回归）是当前业界比较常用的机器学习方法，用于估计某种事物的可能性。比如某用户购买某商品的可能性，某病人患有某种疾病的可能性，以及某广告被用户点击的可能性等。（注意这里是：“可能性”，而非数学上的“概率”，logisitc回归的结果并非数学定义中的概率值，不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和，而非直接相乘）那么它究竟是什么样的

2015-12-19 10:03:50 1883

在工业界，很少直接将连续值作为逻辑回归模型的特征输入，而是将连续特征离散化为一系列0、1特征交给逻辑回归模型，这样做的优势有以下几点：0. 离散特征的增加和减少都很容易，易于模型的快速迭代；1. 稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；2. 离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是年龄>30是1，否则0。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大

2015-12-18 23:37:23 3378

转载美团O2O排序解决方案——线上篇

美团的愿景是连接消费者和商家，而搜索在其中起着非常重要的作用。随着业务的发展，美团的商家和团购数正在飞速增长。这一背景下，搜索排序的重要性显得更加突出：排序的优化能帮助用户更便捷地找到满足其需求的商家和团购，改进用户体验，提升转化效果。和传统网页搜索问题相比，美团的搜索排序有自身的特点——90%的交易发生在移动端。一方面，这对排序的个性化提出了更高的要求，例如在“火锅”查询下，北京五道口的火锅

2015-12-07 22:18:45 1143

转载美团O2O排序解决方案——线下篇

背景针对美团90%的交易发生在移动端的业务特点，我们实现了一套适用于O2O业务的搜索排序技术方案，已在许多产品和子行业中得到应用。在之前的线上篇中，我们已经介绍了服务的框架、排序算法等。本文为线下篇，主要讲述数据清洗、特征矩阵、监控系统、模型训练和效果评估等模块。数据清洗数据清洗的主要工作是为离线模型训练准备标注数据，同时洗掉不合法数据。数据清洗的数据源主要有团购的曝光、点击和下单。

2015-12-07 22:16:13 1687

转载美团推荐算法实践:机器学习重排序模型成亮点

编者按：在用户意图明确时，我们通常用搜索引擎来解决互联网时代的信息过载问题，但当用户的意图不明确或者很难用清晰的语义表达，搜索引擎就无能为力。此时，借助推荐系统通过用户行为的分析理解其意图，为其推送个性化的结果，便成为一种更好的选择。美团作为国内发展较快的O2O网站，有着大量的用户和丰富的用户行为，这些为推荐系统的应用和优化提供了很好的条件。本文由美团技术团队成员撰写，介绍其推荐系统的构建和优化过

2015-12-07 22:15:14 1145

转载美团推荐系统整体框架与关键工作

摘要：美团推荐与个性化团队技术经理沈国阳来到CSDN在线视频分享平台，为我们深度解析美团本地生活服务推荐的工作经验，并与群友进行互动交流。沈国阳重点介绍了美团推荐系统的架构和特色，以及在排序层面的主要工作。8月11日晚20:30，受CSDN人工智能用户群邀请，美团推荐与个性化团队技术经理沈国阳来到CSDN在线视频分享平台，为我们深度解析美团本地生活服务推荐的工作经验，并与群友进行互动交

2015-12-07 22:12:33 6672

转载 GraphLab:新的面向机器学习的并行框架

1.1 GraphLab简介在海量数据盛行的今天，大规模并行计算已经随处可见，尤其是MapReduce框架的出现，促进了并行计算在互联网海量数据处理中的广泛应用。而针对海量数据的机器学习对并行计算的性能、开发复杂度等提出了新的挑战。机器学习的算法具有下面两个特点：数据依赖性强，运算过程各个机器之间要进行频繁的数据交换；流处理复杂，整个处理过程需要多次迭代，数据的处理条件分支多。

2015-12-07 15:24:34 660

转载图模型与机器学习

对于需要迭代计算的算法，MapReduce显然不可用，迭代n次的IO量太大，而基于消息的传递模型，BSP和MPI的优势就出来了。BSP的编程模型，试验过了，确实容易入门，只要将求解问题（例如，优化问题、图的最短路径问题等等）抽象成图模型（顶点Vertex、边Edge）后，再通过消息Message，来不断迭代求解即可。拿前面有篇文章，NMF的矩阵分解这个优化问题，来实验：1）NMF的矩阵

2015-12-07 14:54:30 1498

转载杨鹏谈世纪佳缘推荐算法：基于Spark GraphX，弃GBDT和LR用FM

世纪佳缘推荐场景先说一下我们的推荐场景。我们使用推荐的场景跟电影、商品推荐有很大的不同，商品的推荐可能只考虑到转化就可以了，我们要考虑推荐链的更长一些。我们的情况：用户登录网站，算法推荐出用户可能感兴趣的人，用户发信，收信用户看信。最大的不同点在于，我们的item也是人，设计算法时也要考虑item的感受。拿亚马逊来类比，亚马逊可能只需要考虑把一本书推荐给某个人，

2015-12-07 14:49:53 1617

转载百度 vs Facebook：基础架构研发思路分析

ChinaByte比特网 2月1日（文/黄亮）半年多以前，我曾经撰文一篇《纪录中国——企业存储的自主之路》，讨论的是厂商（供应商）自主研发创新方面的话题；今天，我要写的是IT基础设施的用户端，在数据中心方面的投入的研发。前者比较好理解，只有掌握一定的核心技术才能保证产品的持久竞争力和销路；而作为像Google、Facebook、百度、阿里巴巴这样的互联网企业来说，他们的定位是服务提供商，数据中

2015-12-05 17:19:28 1774

a936676463的专栏