自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

豹先生

思而后定,持之以恒

  • 博客(37)
  • 资源 (5)
  • 收藏
  • 关注

转载 Twitter研发人员John Oskasson分析Twitter后台软件栈

Twitter研发人员John Oskasson分析Twitter后台软件栈作者 郑柯 发布于 二月 12, 2013 | 讨论 新浪微博腾讯微博 豆瓣网 Twitter Facebook linkedin 邮件分享 更多 19稍后阅读我的阅读清单John Oskarsson是Twitter的一名研发人员。最近,他撰写的一篇博客中提到

2013-10-28 15:54:16 1176

转载 Finagle:一个支持多协议的RPC系统

Finagle是一个协议不可知的,异步的,用于 JVM 的 RPC 系统,它使得在 Java、Scala 或任何基于JVM 的语言重构建鲁棒的客户端和服务器非常容易。在 Twitter.com上面即使是渲染最简单的网页也需要十多个说着不同协议的网络服务的合作。比如,为了渲染首页,应用程序需要向社交网络图(SocialGraph)服务、Memcached、数据库、以及许多其它网络服务发出

2013-10-28 15:45:39 1510

转载 weka分类器-C4.5决策树

1.     算法概述 C4.5,是机器学习算法中的另一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法,是相对于ID3算法的改进,主要改进点有:1.      用信息增益率来选择属性。C4.5克服了ID3用信息增益选择属性时偏向选择取值多的属性的不足。2.      在树构造过程中进行剪枝。3.      对非离散数据也能处理。

2013-10-28 13:35:24 2426

转载 淘宝用户行为分析(三)(淘宝用户个性化标签)

2013-10-25阿里技术嘉年华 分析需要回答三个问题,用户行为分析也不例外。     前面我们聊了用户行为分析的内容、目的、差异性和流动性。这里再聊聊传播性。    当你想买一个东西的时候,若你是个理性的消费者,你就会考虑7要素:该不该买?给谁买?什么时候买?买什么?在哪买?买多少?怎么选?而在考虑这些要素时,你总是会听到一些声音。这

2013-10-28 09:05:50 2826

转载 淘宝用户行为分析(二)(用户个性化标签)

2013-10-25阿里技术嘉年华   上篇博文我们聊了两个问题:用户行为的研究内容和用户的差异性。这里我们再聊聊用户的流动性。    如果把用户比作流动的水,那么企业就是蓄水池,新用户从进水管流入,老用户从出水管流出。企业要灌溉庄稼获取收成,就要有一定的蓄水量,就必须开源节流,开拓新用户的同时,留住老用户。不论是开拓新用户还是留住老用户,都是基于用户的流动性。由此产生

2013-10-28 09:04:50 4195

转载 淘宝用户行为分析

2013-10-24贾元乔 阿里技术嘉年华 你的营销虽林林种种,但却有一个永恒的轴心:用户。    用户行为指挥着营销活动的走向:从新品开发到价格制定;从渠道管理到品牌管理……,营销围绕用户展开,用户行为分析是营销工作的首要环节。用户行为分析需要回答三个问题:²  什么是用户行为(What)?²  为什么分析用户行为(Why)?²  如何分析

2013-10-25 13:34:55 3631

转载 一淘点评情感分析方法及应用场景

2013-10-23水德 阿里技术嘉年华    点评是非常重要的一类UGC数据,里面含有大量的用户反馈信息。点评情感分析(sentiment analysis)负责对点评进行情感信息的抽取、聚合和应用。基于情感分析结果,可以更加有效的过滤、筛选、排序、概括和展现点评的内容,方便用户对点评信息的使用;基于情感分析结果,还可以在语义维度实现产品的聚合、相关性计算,协助用户购物决策。

2013-10-25 13:33:42 1871

转载 Windows下eclipse+CDT+MinGW环境配置

时间:2011.1.3鉴于网上很多方法的软件版本都过时或多或少都会出现写问题,现收录总结如下,本人安装的所有软件都是截止2010年末最新版本,详情如下:OS:Windows 7(不过Sp1好像出来了)Eclipse:eclipse-java-helios-SR1-win32 (默认地址下载)CDT:cdt-master-7.0.0-I201006141710下载地址

2013-10-23 20:15:42 1161

转载 漫谈大数据仓库与挖掘系统:BSP模型(应用于数据挖掘、机器学习的云计算模型)

2013-10-22卡特 阿里技术嘉年华本文其它章节:  漫谈大数据仓库与挖掘系统:前言:大数据的价值  【回复071查看】 漫谈大数据仓库与挖掘系统:层次、维度与主题【回复072查看】 漫谈大数据仓库与挖掘系统:ETL的开始—数据的传输和同步【回复073查看】 漫谈大数据仓库与挖掘系统:MapReduce与大规模离线计算系统【回复074查看】 

2013-10-23 09:15:14 2764 5

转载 LINUX系统下解决time_wait 连接数过多问题

经常检查apache的连接数,会发现很多无用的time_wait连接。有人说这是正常的,是因为一个请求中途中断造成的;还有人说微软的IE连接时产生的Time_wait会比用Firefox连接时多。个人认为有一定的Time_wait是正常的,如果超过了连接数的比例就不是很正常,所以还是找来方法解决一下。  先检查一下time wait的值:  [root@aaa1 ~]#sysctl -a

2013-10-21 09:39:36 3299

转载 淘宝反作弊举报系统

反作弊举报系统       反作弊举报系统主要是用户作弊信息收集。对于作弊严重的卖家,我们将给予全店铺搜索降权或屏蔽处理。通过该系统的举报信息收集,优化作弊商品识别算法,净化淘宝搜索环境,从而给诚信经营的卖家一个更公平竞争的平台,给消费者更好的购物体验。如何举报作弊商品?1. 在淘宝账号登录状态下,搜索你想要的商品,在搜索结果页中,鼠标移动到商品图片上,点击商品图片左上角出现的

2013-10-18 13:28:30 2670

转载 如何预测用户query意图

2013-10-13仁重 阿里技术嘉年华    有一个朋友问,一个用户搜索一个query是“百度”,怎么知道用户真正是想找什么呢。        我回答说,分析之前搜索这个query的用户点了些什么结果啊。        朋友继续问,如果没有用户点击呢。        呃,如果没有点击,这个问题就比较复杂了。整理了下思路,于是写成了本文。主要描述了关于如

2013-10-18 13:26:42 1269

转载 漫谈大数据仓库与挖掘系统:MapReduce与大规模离线计算系统

013-10-11 阿里技术嘉年华上集回顾:什么是大数据?【回复071查看】层次、维度与主题【回复072查看】一切的开始—数据的传输和同步【回复073查看】     读过本文的前三个章节的读者,对大数据系统应该已经有了一个初步的认识,并且已经清楚的知道,大数据之庞大,已经远远超出任何一个单机系统的处理能力的极限,我们需要成千上万台计算机来协同工作,

2013-10-17 13:39:11 1451

转载 漫谈大数据仓库与挖掘系统:数据的传输和同步

2013-10-10卡特 阿里技术嘉年华上集回顾:什么是大数据?【回复071查看】层次、维度与主题【回复072查看】     在前面的章节中,我们提到,本文最终的目的,是带领大家构造设计一个“全民信息数据挖掘系统”。而在上一节中,我们得知,数据仓库的特性之一便是其的“集成性”:不同的数据来源、不同的形式的数据集中在一处,在数据仓库系统中进行分析。这便是一个数

2013-10-17 13:38:33 1612

转载 漫谈大数据仓库与挖掘系统--层次、维度与主题

2013-10-09阿里技术嘉年华    上集回顾:什么是大数据?【回复071查看】     在上一章节的末尾,我们谈到,这个系列的文章,最终会以我国公安机关拥有的公民信息、加上民航部门拥有的出行信息、银行拥有的交易信息等数据为例,逐渐讲述如何构建一个大数据的国民信息挖掘系统。不过以上一章节所叙述的基础知识,还不足以让我们进入实例环节。在这一章,我们还是必须补充一些相关的基

2013-10-17 13:37:39 1443

转载 淘宝商品图片的图像比较实现和研究

2013-09-15 阿里技术嘉年华一. 背景介绍     淘宝有着数量巨大商品,如何分析这些商品之间的关系是淘宝中面临的一个挑战。特别是淘宝区别于京东和亚马逊在于淘宝很多是非标类,而且商品又来自数量巨大的各个不同卖家所以导致了商品种类的丰富性并且随之带来的一定重合。所以分析同类商品是分析商品关系所遇到的问题之一。     商品中除了大量的结构化信息以外还

2013-10-17 13:34:39 2485

转载 淘宝从空间预测到个性化推荐

2013-09-07 阿里技术嘉年华文/徐萧萧【导读】本文分享了从空间预测到推荐领域的一些前沿思路,这些思路一定程度上可以缓解推荐领域中的一大难题:多样性问题。     个性化推荐相信大家都不会陌生,当前已经深入到了我们很多的业务场景,基本上谈到电子商务和网上购物,第一个想到的挖掘场景就是个性化推荐。    常用的推荐算法大致分为3类:

2013-10-17 13:33:33 1215

转载 淘宝大型数据仓库的治理(4)-数据安全不可控

2013-08-29 阿里技术嘉年华文/通贯【导读】这是共四篇的数据仓库治理系列,本文是第四篇,回复数据仓库可查看整个系列。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“数据安全不可控”的问题,大数据时代,你值得关注。     此前数据安全的攻防重点都在业务系统上,对外要防止黑客攻击,防止其获取业务系统管理员身份盗取机密数据,

2013-10-16 13:26:21 1384

转载 淘宝大型数据仓库的治理(3)-维护成本高

2013-08-27 阿里技术嘉年华文/通贯【导读】数据仓库治理系列文章,本文是第三篇,你可以回复数据仓库(当然需要先关注微信号alibabatech)查看整个系列。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“维护成本高”的问题,大数据时代,你值得关注。        随着大数据时代的来临,数据的作用不再仅限于辅助运营决策,

2013-10-16 13:25:41 1369

转载 淘宝大型数据仓库的治理(2)- 数据质量不可靠

2013-08-26 阿里技术嘉年华文/通贯【导读】数据仓库治理系列文章,本文是第二篇,你可以回复数据仓库(当然需要先关注微信号alibabatech)查看整个系列。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“数据质量不可靠”的问题,大数据时代,你值得关注。     对于程序员来说,最头疼的就是听到:“大兄弟,你这个程序有B

2013-10-16 13:24:57 1441

转载 淘宝大型数据仓库的治理(1)- 数据需求响应慢 实时相应需求

2013-08-25 阿里技术嘉年华文/通贯【导读】这是共四篇的数据仓库治理系列,本文是第一篇。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“数据需求响应慢”的问题,大数据时代,你值得关注。      数据仓库是继ERP之后失败率最高的IT项目。在项目还没立项的时候,会给老板呈现各种美好。而实施到一定阶段的时候,老板会发觉太多

2013-10-16 13:23:56 1513

转载 一淘商品类目预测

2013-08-20 阿里技术嘉年华文/元宗【导读】本文从商品类目预测的难点分析出发,衍生出一淘商品类目预测的架构以及实现,同时还对商品类目预测的进阶提出了畅想。适合想对商品类目预测有一些了解的同学阅读。 什么是一淘商品类目预测    一淘商品类目预测是指计算机利用算法将外网商品分到淘宝后台类目结构中相应类目的过程。商品类目预测业务

2013-10-16 13:22:17 1786

转载 淘宝关键词推荐技术介绍

2013-08-19 阿里技术嘉年华文/太紫【导读】本文通过行业对比等角度分析了关键词推荐技术及工具,关键词推荐系统帮助广告主扩展选词思路,挖掘有价值的关键词,从而更好地提升产品的曝光,帮助广告主找到客户;同时,一个好的关键词推荐系统也能更好地服务用户,帮助用户快速找到合适的供应商。 关键词推荐是什么    赞助商搜索(sponsored se

2013-10-16 13:20:53 1529

转载 国际站反作弊系列之 — 类目错放

2013-08-16 阿里技术嘉年华文/王涛 【导读】本文就反作弊里边的一个大话题:类目错放,进行了一个较为详尽的分析。包括有如何识别类目错放、以及目前识别遇到的问题等。适合想对反作弊有所深入了解的同学阅读。    国际站特指阿里巴巴的两个英文网站,分别是信息平台(alibaba.com)以及交易平台(aliexpress.com),  上

2013-10-14 13:13:33 2122

转载 国际站反作弊系列之 — 反作弊介绍

2013-08-15阿里技术嘉年华文/王涛 【导读】本文将国际站在反作弊方面的经验总结出来,希望给大家一些参考。目前面临的难点分为技术、非技术两个方面。技术方面是如何更好的将机器学习模型实践应用,非技术的方面是网站的整体信息质量并不完善。一、简介    国际站特指阿里巴巴的两个英文网站,分别是信息平台(alibaba.com)以及交易平台(a

2013-10-14 13:12:58 1943

转载 Learning to rank在淘宝的应用

2013-08-12阿里技术嘉年华作者:仁重 (一淘及搜索事业部-搜索技术-算法技术-主搜索与商城)    前言    排序中我们需要解决的是什么样的问题?怎么样把用户想要的,好的商品排到前面;怎样调节不同卖家的流量;给质量好,但价格不便宜的商品更多的流量,来引导市场更加规范。需要解决的问题很复杂,但是排序结果好坏难以评判。    对于搜索结果好不好

2013-10-14 13:12:06 1446

转载 个性化实时计算系统及其应用探索

2013-08-09阿里技术嘉年华作者:腾霄 (一淘及搜索事业部-搜索技术-算法技术-主搜索与商城)一、前言   个性化是搜索技术、计算广告技术以及电子商务领域的一个发展趋势和时髦话题。随着互联网技术的发展,搜索技术越来越为互联网用户所熟悉。但人们已经不满足于一个完全由自己输入而得到返回内容的不聪明的“机器”,人们更希望一个能自动理解、甚至提前猜测自

2013-10-14 13:11:35 1234

转载 性别个性化在淘宝搜索中的应用

2013-08-03阿里技术嘉年华作者:萱然 (一淘及搜索事业部-搜索技术-算法技术-主搜索与商城)背景   作为中国最大的电子商务网站,淘宝上的商品琳琅满目。用户搜索关键词之后会看到成千上万个结果,如何将用户最感兴趣的商品排在前面一直是搜索相关性需要解决的最重要问题之一。   通用排序综合相同关键词下所有用户行为作为排序依据,具有一定的普适性,但这

2013-10-14 13:10:43 1310

转载 个性化购买力分析及在搜索排序上应用

2013-08-02阿里技术嘉年华 作者:元涵  (一淘及搜索事业部-搜索技术-算法技术-主搜索与商城)前言      随着网络的流行和互联网信息的爆炸性增长,如何从海量的信息中准确找到自己需要的信息成为了互联网发展面临的一大难题。传统的搜索引擎由于其通用性,对于相同的查询,所有用户得到的都是同样的结果,显然不能满足不同背景、不同目的和不

2013-10-14 13:09:58 1268

转载 淘宝搜索算法综述之二:淘宝搜索排序算法的现状

2013-08-01阿里技术嘉年华        作者:青峰  (一淘及搜索事业部-搜索技术-算法技术)淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进:1.算法模型当用户输入关键

2013-10-12 11:17:28 1533

转载 淘宝搜索算法综述之一:淘宝搜索的特点

2013-08-01阿里技术嘉年华        作者:青峰  (一淘及搜索事业部-搜索技术-算法技术)淘宝有十亿商品,挂靠在几千个叶子类目,上百个一级类目,十几个行业下面,如何能让用户快速的找到符合意图的商品,是淘宝搜索需要解决的首要问题。淘宝搜索从大的架构或流程上来说,与传统的搜索引擎有不少相似的地方。由于淘宝搜索面对的是站内卖家上传的商品,这些商品

2013-10-12 11:16:14 1957

转载 如意淘商品推荐技术介绍之二:高级技术

2013-07-31阿里技术嘉年华        作者:亦飞   (一淘及搜索事业部-搜索技术-算法技术-文本搜索技术)本文将介绍如意淘商品推荐的高级技术,也是我们获得PV点击率翻倍的关键技术,主要是商品聚类、Re-ranking和点击反馈。一、商品聚类       为什么要做商品聚类?不是因为数据稀疏性的问题,上一篇文章中挖掘到的商品数据字典虽只有

2013-10-12 11:15:17 2419

转载 如意淘商品推荐技术介绍之一:基础推荐

2013-07-31阿里技术嘉年华        作者:亦飞   (一淘及搜索事业部-搜索技术-算法技术-文本搜索技术) 如意淘商品推荐技术是由一淘搜索北京算法团队支持,去年8月份上线之初,PV点击率即高于数据平台部门(原技术支持方)的30%,经过半年左右的优化,PV点击率实现翻倍。       在项目的实施过程中,我们有以下两点体会:1. 明确问题

2013-10-12 11:14:16 1899

转载 从概念的角度审视淘宝一淘商品搜索Online系统架构

2013-07-30阿里技术嘉年华       从概念上讲,一淘商品搜索涉及的几个重要名词的关系可以粗略地用上面这张图描述。其中涉及到如下不同层次的术语:类目、一级类目、叶子类目、前后台类目产品节点、SPU、SKU、节点父子关系产品属性、商品属性、类目公共属性、关键属性、导航属性为什么这些概念随着时间的推移逐渐地出现,是因为系

2013-10-12 11:12:54 1945

转载 揭秘淘宝286亿海量图片存储与处理架构

8月27日下午,在IT168系统架构师大会存储与系统架构分论坛上,淘宝网技术委员会主席,淘宝网核心工程师章文嵩向我们详细介绍了淘宝网图片处理与存储系统的架构。章文嵩博士的演讲日程包括了淘宝的整个系统架构、淘宝图片存储系统架构,淘宝网独立开发的TFS集群文件系统,前端CDN系统以及淘宝网在节能服务器方面的应用和探索。LVS创始人,淘宝网技术委员会主席,淘宝网核心工程师章文嵩先生  本文侧

2013-10-09 19:15:37 1508

原创 solr4 facet 源码流程分析

首先说下solr facet流程中会牵扯到类:1,SearchHandler2,QueryComponent3,FacetComponent4,SolrIndexSearcher1,SearchHandler说明请求处理起始,会调用请求中所有的component,不仅仅是query、facet。2,QueryComponent 3,FacetComponen

2013-10-09 19:05:24 1328

翻译 solrcloud(solr4)搜索引擎系统架构

New SolrCloud DesignThis was a scratchpad for ideas and was not used as is - this page does not describe theSolrCloud design as it was implemented and this page is only around for historical rea

2013-10-09 11:25:51 1878

nutch1.3在myclipse部署工程源码

nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码nutch1.3在myclipse部署工程源码

2011-10-31

osgi开发jar包

osgi开发jar包osgi开发jar包osgi开发jar包osgi开发jar包

2009-02-20

mysql官方中文参考.chm

mysql官方中文参考mysql官方中文参考

2009-01-07

jfreechart-1.0.9-javadocs

jfreechart-1.0.9-javadocs

2008-09-23

iReport+Flash教程(LWY)报表

iReport+Flash教程(LWY)报表

2008-09-23

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除