自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(200)
  • 资源 (3)
  • 收藏
  • 关注

原创 elasticsearch原子写入

转载:https://yq.aliyun.com/articles/581875?spm=a2c4e.11153959.blogcont576223.9.4b5f7ba228akfF 目前的Elasticsearch有两个明显的身份,一个是分布式搜索系统,另一个是分布式NoSQL数据库,对于这两种不同的身份,读写语义基本类似,但也有一点差异。写操作 实时性: 搜索系统的I...

2019-02-18 18:02:48 1967

转载 LVS基本介绍

LVS基本介绍LVS是Linux Virtual Server的简称,也就是Linux虚拟服务器。这是一个由章文嵩博士发起的一个开源项目,本文介绍了一些关于LVS的基本概念。作者:佚名来源:网络|2012-02-13 23:29 收藏  分享一、LVS概念LVS是Linux Virtual Server的简称,也就是Linux虚拟服务器。这是一个由章文嵩博士发起的一个开源项目,它的

2016-11-02 15:56:51 781

原创 nginx关键词

nginx 检活机制nginx 保活机制nginx 健康检查

2016-11-02 15:36:23 1160

转载 学习排序 Learning to Rank 小结

学习排序(Learning to Rank)LTR(Learning torank)学习排序是一种监督学习(SupervisedLearning)的排序方法。LTR已经被广泛应用到文本挖掘的很多领域,比如IR中排序返回的文档,推荐系统中的候选产品、用户排序,机器翻译中排序候选翻译结果等等。IR领域传统的排序方法一般通过构造相关度函数,然后按照相关度进行排序。影响相关度的因素很多,比如上面提到的

2016-01-04 13:44:29 1473

转载 美团推荐系统整体框架与关键工作

摘要:美团推荐与个性化团队技术经理沈国阳来到CSDN在线视频分享平台,为我们深度解析美团本地生活服务推荐的工作经验,并与群友进行互动交流。沈国阳重点介绍了美团推荐系统的架构和特色,以及在排序层面的主要工作。8月11日晚20:30,受CSDN人工智能用户群邀请,美团推荐与个性化团队技术经理沈国阳来到CSDN在线视频分享平台,为我们深度解析美团本地生活服务推荐的工作经验,并与群友进行互动交

2016-01-04 13:19:11 1221

转载 美团推荐算法实践:机器学习重排序模型成亮点

编者按:在用户意图明确时,我们通常用搜索引擎来解决互联网时代的信息过载问题,但当用户的意图不明确或者很难用清晰的语义表达,搜索引擎就无能为力。此时,借助推荐系统通过用户行为的分析理解其意图,为其推送个性化的结果,便成为一种更好的选择。美团作为国内发展较快的O2O网站,有着大量的用户和丰富的用户行为,这些为推荐系统的应用和优化提供了很好的条件。本文由美团技术团队成员撰写,介绍其推荐系统的构建和优化过

2016-01-04 13:11:33 1293

转载 程序化点击率预估(CTR)

指标广告点击率预估是程序化广告交易框架的非常重要的组件,点击率预估主要有两个层次的指标:1. 排序指标。排序指标是最基本的指标,它决定了我们有没有能力把最合适的广告找出来去呈现给最合适的用户。这个是变现的基础,从技术上,我们用AUC来度量。2. 数值指标。数值指标是进一步的指标,是竞价环节进一步优化的基础,一般DSP比较看中这个指标。如果我们对CTR普遍低估,我们出价会相对保守,从而使

2016-01-04 13:06:29 6478

转载 中国互联网技术联盟正式成立 京东、美团、 58到家现场分享推荐系统核心技术

首先,58到家数据部数据挖掘组负责人王洪权带来了《58到家的推荐系统与推荐技术》主题演讲,分享了推荐系统的选型经验。他表示个性化推荐并不等同于协调过滤,在实际应用中往往可将多种推荐方式结合使用。它被广泛采用因为其有着不依赖产品属性的优势,但同时面临着数据稀疏性、冷启动带来的问题、挑战。同时他还提出了企业在做推荐时可能会遇到诸多问题,如数据量大且动态变化、推荐的精确性和多样性往往难以兼得等。

2016-01-04 12:57:12 1546

转载 Atlas 、cobar

mysql-proxy是官方提供的mysql中间件产品可以实现负载平衡,读写分离,failover等,但其不支持大数据量的分库分表且性能较差。下面介绍几款能代替其的mysql开源中间件产品,Atlas,cobar,tddl,让我们看看它们各自有些什么优点和新特性吧。AtlasAtlas是由 Qihoo 360, Web平台部基础架构团队开发维护的一个基于MySQL协议的数据

2015-12-31 15:41:43 891

转载 Scala在挖财的应用实践

这次分享有三个方面,1是介绍一下挖财当前的开发情况和后端的架构, 2是挖财选择Scala的原因,3是挖财使用Scala相关的技术时碰到的问题以及经验。第一部分是团队的情况和后端技术的架构。近一年我们的开发团队从50人增长到了现在两百人,公司总人数扩张到600左右,技术人员占的比例跟国内大多互联网创业公司的比例差不多,1/3左右的样子,昨天大会上王天提到Twitter的工程师44%左右在

2015-12-31 15:22:28 1123

转载 手机淘宝移动端接入网关基础架构演进之路

移动网络优化是超级App永恒的话题,对于无线电商来说更为重要,网络请求体验跟用户的购买行为息息相关,手机淘宝从过去的HTTP API网关,到2014年升级支持SPDY,2015年双十一自研高性能、全双工、安全的ACCS(阿里云通道服务)扛住双十一战场主要流量,无论是基础架构的演进、网络调优、协议的优化、异地多活、网络调度上都有不少宝贵的经验与大家分享。ACCS基于无线场景精心设计的双工

2015-12-30 14:29:22 1940

转载 python与逻辑回归

机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。恰好遇见这本同样定位的书籍,所以就参考这本书的过程来学习了。       这节学习的是逻辑回归(Logistic Regression),也算进入了比较正统的机器学习算法。啥叫正统呢?我概念里面机器学

2015-12-27 18:15:02 1445

转载 从 最大似然到EM详解

机器学习十大算法之一:EM算法。能评得上十大之一,让人听起来觉得挺NB的。什么是NB啊,我们一般说某个人很NB,是因为他能解决一些别人解决不了的问题。神为什么是神,因为神能做很多人做不了的事。那么EM算法能解决什么问题呢?或者说EM算法是因为什么而来到这个世界上,还吸引了那么多世人的目光。       我希望自己能通俗地把它理解或者说明白,但是,EM这个问题感觉真的不太好用通俗的语言去说明白,

2015-12-27 17:24:09 1105

转载 【大数据】新机遇:我的分布式机器学习故事

前言从毕业加入Google 开始做分布式机器学习,到后来转战腾讯广告业务,至今已经七年了。我想说说我见到的故事和我自己的实践经历。这段经历给我的感觉是:虽然在验证一个新的并 行算法的正确性的时候,我们可以利用现有框架,尽量快速实现,但是任何一个有价值的机器学习思路,都值得拥有自己独特的架构。所以重点在有一个分布式操作 系统,方便大家开发自己需要的架构(框架),来支持相应的算法。

2015-12-23 19:56:33 2008

原创 在MapReduce中实现logistic回归和LOESS

对MapReduce也用了一段时间,基本的数据处理都已比较熟悉,但目前用的S1的参数和直觉调的参数。这样下去不行啊,果断要开搞机器学习。虽然阿里给我们提供了Xlab,看起来也挺强大的,各种模型都很丰富,但作为一个不造轮子会死的程序猿,还是想实现自己的训练方法和模型,这也有利于后期的提高,所以就找了点资料研究了如何用MapReduce进行机器学习的训练。MapReduce的入门,可以参考这个文章

2015-12-20 10:27:09 3086

原创 MapReduce的组合式,迭代式,链式

1.比如我们输出的mapreduce结果,需要进入下一个mapreduce,该怎么解决?可以使用迭代式 2.那么什么是迭代式? 3.什么是依赖式? 4.什么是链式? 5.三种模式各自的应用场景是什么?1.迭代式mapreduce        一些复杂的任务难以用一次MapReduce处理完成,需要多次 MapReduce 才能完成任务,例如Pagrank,K-means算法都需要多次

2015-12-20 10:11:47 831

原创 搜索与机器学习的两篇相关文章

http://www.docin.com/p-1280031037.htmlhttp://www.doc88.com/p-3781645801136.html

2015-12-19 21:23:20 648

转载 寻找最优参数解:最速下降法,牛顿下降法,阻尼牛顿法,拟牛顿法DFP/BFGS

机器学习的一个重要组成部分是如何寻找最优参数解。本文就常见寻优方法进行总结,并给出简单python2.7实现,可能文章有点长,大家耐心些。寻找最优参数解,就是在一块参数区域上,去找到满足约束条件的那组参数。形象描述,比如代价函数是个碗状的,那我们就是去找最底部(代价最小)的那个地方的对应的参数值作为最优解。那么,如何找到那个底部的最优参数解呢,如何由一个初始值,一步一步地接近该最优解呢。寻优方

2015-12-19 21:18:00 1247

转载 猜你喜欢-----推荐系统原理介绍

写在正文之前 最近在做推荐系统,在项目组内做了一个分享。今天有些时间,就将逻辑梳理一遍,将ppt内容用文字沉淀下来,便于接下来对推荐系统的进一步研究。推荐系统确实是极度复杂,要走的路还很长。 A First Glance  为什么需要推荐系统——信息过载 随着互联网行业的井喷式发展,获取信息的方式越来越多,人们从主动获取信息逐渐变成了被动接受信息,信息量也在

2015-12-19 18:45:36 1139

原创 CTR打分模型中为什么使用逻辑回归

个人觉得主要原因是广告点击率预测需要基于大规模的训练样本和特征。一般是十亿级别样本和亿级别的特征,甚至更多。逻辑回归由于模型简单,很适合用来学习大数据的问题。另外,逻辑回归做在线学习比较容易,处理速度也快。至于为什么广告需要基于大数据,主要是要记忆很多过去的行为模式。机器学习就是记忆和泛化。数据多了,才有学习和记忆的基础。

2015-12-19 11:14:00 2139

转载 Logistic regression 逻辑回归概述

Logistic regression (逻辑回归)是当前业界比较常用的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。(注意这里是:“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加权求和,而非直接相乘)那么它究竟是什么样的

2015-12-19 10:03:50 1870

原创 逻辑回归离散特征

在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0. 离散特征的增加和减少都很容易,易于模型的快速迭代;1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大

2015-12-18 23:37:23 3361

转载 美团O2O排序解决方案——线上篇

美团的愿景是连接消费者和商家,而搜索在其中起着非常重要的作用。随着业务的发展,美团的商家和团购数正在飞速增长。这一背景下,搜索排序的重要性显得更加突出:排序的优化能帮助用户更便捷地找到满足其需求的商家和团购,改进用户体验,提升转化效果。和传统网页搜索问题相比,美团的搜索排序有自身的特点——90%的交易发生在移动端。一方面,这对排序的个性化提出了更高的要求,例如在“火锅”查询下,北京五道口的火锅

2015-12-07 22:18:45 1131

转载 美团O2O排序解决方案——线下篇

背景针对美团90%的交易发生在移动端的业务特点,我们实现了一套适用于O2O业务的搜索排序技术方案,已在许多产品和子行业中得到应用。在之前的线上篇中,我们已经介绍了服务的框架、排序算法等。本文为线下篇,主要讲述数据清洗、特征矩阵、监控系统、模型训练和效果评估等模块。数据清洗数据清洗的主要工作是为离线模型训练准备标注数据,同时洗掉不合法数据。数据清洗的数据源主要有团购的曝光、点击和下单。

2015-12-07 22:16:13 1673

转载 美团推荐算法实践:机器学习重排序模型成亮点

编者按:在用户意图明确时,我们通常用搜索引擎来解决互联网时代的信息过载问题,但当用户的意图不明确或者很难用清晰的语义表达,搜索引擎就无能为力。此时,借助推荐系统通过用户行为的分析理解其意图,为其推送个性化的结果,便成为一种更好的选择。美团作为国内发展较快的O2O网站,有着大量的用户和丰富的用户行为,这些为推荐系统的应用和优化提供了很好的条件。本文由美团技术团队成员撰写,介绍其推荐系统的构建和优化过

2015-12-07 22:15:14 1122

转载 美团推荐系统整体框架与关键工作

摘要:美团推荐与个性化团队技术经理沈国阳来到CSDN在线视频分享平台,为我们深度解析美团本地生活服务推荐的工作经验,并与群友进行互动交流。沈国阳重点介绍了美团推荐系统的架构和特色,以及在排序层面的主要工作。8月11日晚20:30,受CSDN人工智能用户群邀请,美团推荐与个性化团队技术经理沈国阳来到CSDN在线视频分享平台,为我们深度解析美团本地生活服务推荐的工作经验,并与群友进行互动交

2015-12-07 22:12:33 6542

转载 GraphLab:新的面向机器学习的并行框架

1.1 GraphLab简介在海量数据盛行的今天,大规模并行计算已经随处可见,尤其是MapReduce框架的出现,促进了并行计算在互联网海量数据处理中的广泛应用。而针对海量数据的机器学习对并行计算的性能、开发复杂度等提出了新的挑战。机器学习的算法具有下面两个特点:数据依赖性强,运算过程各个机器之间要进行频繁的数据交换;流处理复杂,整个处理过程需要多次迭代,数据的处理条件分支多。

2015-12-07 15:24:34 641

转载 图模型与机器学习

对于需要迭代计算的算法,MapReduce显然不可用,迭代n次的IO量太大,而基于消息的传递模型,BSP和MPI的优势就出来了。BSP的编程模型,试验过了,确实容易入门,只要将求解问题(例如,优化问题、图的最短路径问题等等)抽象成图模型(顶点Vertex、边Edge)后,再通过消息Message,来不断迭代求解即可。拿前面有篇文章,NMF的矩阵分解这个优化问题,来实验:1)NMF的矩阵

2015-12-07 14:54:30 1489

转载 杨鹏谈世纪佳缘推荐算法:基于Spark GraphX,弃GBDT和LR用FM

世纪佳缘推荐场景先说一下我们的推荐场景。我们使用推荐的场景跟电影、商品推荐有很大的不同,商品的推荐可能只考虑到转化就可以了,我们要考虑推荐链的更长一些。我们的情况:用户登录网站,算法推荐出用户可能感兴趣的人,用户发信,收信用户看信。最大的不同点在于,我们的item也是人,设计算法时也要考虑item的感受。拿亚马逊来类比,亚马逊可能只需要考虑把一本书推荐给某个人,

2015-12-07 14:49:53 1604

转载 百度 vs Facebook:基础架构研发思路分析

ChinaByte比特网 2月1日(文/黄亮)半年多以前,我曾经撰文一篇《纪录中国——企业存储的自主之路》,讨论的是厂商(供应商)自主研发创新方面的话题;今天,我要写的是IT基础设施的用户端,在数据中心方面的投入的研发。前者比较好理解,只有掌握一定的核心技术才能保证产品的持久竞争力和销路;而作为像Google、Facebook、百度、阿里巴巴这样的互联网企业来说,他们的定位是服务提供商,数据中

2015-12-05 17:19:28 1750

转载 漫谈数据中心CLOS网络架构

1、数据中心网络架构挑战  随着技术的发展,数据中心的规模越来越大,一个数据中心的服务器容量从几年前的几千台服务器发展到今天的几万甚至几十万台。为了降低网络建设和运维成本,数据中心网络的设计者们也竭力将一个网络模块的规模尽可能扩大。同时,数据中心网络内部东西向流量也日益增加,在一些集群业务的需求驱动下,数据中心网络设计者们甚至开始讨论一个网络模块内10000台千兆线速服务器的可能性。

2015-11-28 11:08:00 13819

转载 openflow简介

摘要:本文主要介绍OpenFlow的概念,介绍其控制和转发分离的核心思想,分析了其特性,包括开放性、智能化和高性价比。同时分析了下一代数据网络中心对网络的需求,流量快速增长,横向流量大幅提升,对网络智能化管理需求不断提升,增值业务快速部署等需求,提出OpenFlow在数据中心的应用场景探讨。并对OpenFlow进行了展望,对运营商而言可以极大的加快网络创新能力。 关键词:Ope

2015-11-28 11:05:32 2900

转载 JNA—模拟C语言结构体

   前言前几天写《JNA--JNI终结者》一文介绍JNA框架。写完之后才发现,忘了写比较有难度的C语言Struct的模拟了。今天就补上这篇文章,介绍Struct。不写怎样模拟C语言结构体,就不能算是真正解决了调用动态链接库的问题。C语言的结构体用得实在是太广泛了。  首先说明一点,本文中大量把模拟Struct的类写作为接口的内部类。这不是JNA

2015-11-28 10:59:57 2505

转载 jna调用so例子

最近自己写的一个广告发布平台要迁移到Linux平台上,由于之前用的是windows平台的dll文件,现在要改用.so。讲下如何在Linux下面调用.so。在linux下使用jna调用本地方法的时候,需要将C写成的程序编译为so文件1、写一个简单test.c文件:#includeint add(int a,int b);int add(int a,int b){

2015-11-28 10:57:29 4048 2

转载 java通过 JNA调用 so

JNA—JNI终结者 介绍给大家介绍一个最新的访问本机代码的Java框架—JNA。JNA(Java Native Access)框架是一个开源的Java框架,是SUN公司主导开发的,建立在经典的JNI的基础之上的一个框架。JNA项目地址:https://jna.dev.java.net/ 非常强大、易用,功能上类似与.NET的P/Invoke。   

2015-11-28 10:56:34 18023 3

转载 java hashmap深入分析

HashMap 和 HashSet 是 Java Collection Framework 的两个重要成员,其中 HashMap 是 Map 接口的常用实现类,HashSet 是 Set 接口的常用实现类。虽然 HashMap 和 HashSet 实现的接口规范不同,但它们底层的 Hash 存储机制完全一样,甚至 HashSet 本身就采用 HashMap 来实现的。 通过 HashMap、H

2015-11-12 19:52:46 468

原创 protobuffer java

早之前就用过Google的Protobuf做数据编码,一直没有深入理解其中的原理,最近做了一次通讯抓包,发现其中很多Protobuf编码的数据包,于是决定分析一下其中的数据包及其编码。一、Protobuf的使用首先来简单介绍一下Protobuf的使用,这里以windows下java开发为例,几个步骤:编写*.proto ->使用google提供的protoc.exe生成*.java

2015-11-06 15:19:28 1400

原创 vim tag技巧 函数跳转技巧 TlistToggle技巧

输入vim命令,用":helptags. "在代码根目录下生成tags文件。这个需要注意,浪费了我挺多时间。如总目录为A,下有A1、A2、A3等子目录,不能在A1/A2/A3平级的目录下生成tags,而应该在A平级的目录下用vim命令,在打开的文件中输入“:helptags. ”后退出,可以看到多了一个tags目录。用ctags -R命令也可。vim打开代码,输入 “:set tags=/dire

2015-11-03 17:12:27 6079

原创 mathout template

https://github.com/bsspirit/maven_mahout_template/tree/master/src/main/java/org/conan/mymahout

2015-11-03 14:54:28 527

原创 spark mlib官方文档

http://spark.apache.org/docs/latest/mllib-guide.html

2015-11-03 14:52:15 1300

时尚红蓝年终工作总结PPT模板

时尚红蓝年终工作总结PPT模板,超实用

2019-02-15

zookeepersample

zookeeper使用示例,介绍了zookeeper在生产环境中的多个用途

2013-06-26

ios push

ios平台推送信息源码 后台server端代码

2013-01-31

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除