自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

豹先生

思而后定,持之以恒

原创 收藏搬家了

qq书签收藏搬家到csdn来了,QQ2013把qq书签给去掉了,无奈啊~~~

2013-02-08 10:38:23

阅读数 442

评论数 0

转载 zookeeper动态通知实现

转载请注明:@ni掌柜     本文重点围绕ZooKeeper的Watcher,介绍通知的状态类型和事件类型,以及这些事件通知的触发条件。   1、浅谈Watcher接口 在ZooKeeper中,接口类Watcher定义了事件通知相关的逻辑,包含了KeeperState和EventType...

2014-06-24 11:02:55

阅读数 2075

评论数 1

原创 eclipse远程方式调试hadoop-yarn

远程调试hadoop-yarn需要三步走即可: 1,已debug模式启动hadoop-yarn集群,比如想要eclipse debug跟踪resourcemanager,在hadoop安装目录下找到 $hadoop_home/etc/hadoop/yarn-env.sh文件 添加如下一句话 YAR...

2014-01-03 14:29:19

阅读数 2556

评论数 1

转载 Hive HQL优化

使用Hive可以高效而又快速地编写复杂的MapReduce查询逻辑。但是某些情况下,因为不熟悉数据特性,或没有遵循Hive的优化约定,Hive计算任务会变得非常低效,甚至无法得到结果。一个”好”的Hive程序仍然需要对Hive运行机制有深入的了解。 有一些大家比较熟悉的优化约定包括:Join中需...

2013-12-02 14:40:27

阅读数 1131

评论数 0

转载 Hive 随谈(二)– Hive 结构

Hive 体系结构 Hive 的结构如图所示, 主要分为以下几个部分: 用户接口,包括 CLI,Client,WUI。元数据存储,通常是存储在关系数据库如 mysql, derby 中。解释器、编译器、优化器、执行器。Hadoop:用 HDFS 进行存储,利用 MapReduce 进...

2013-12-02 10:51:55

阅读数 759

评论数 0

原创 hadoop1.2.1eclipse 插件An internal error occurred during: "Connecting to DFS hadoop1.2.1".

编译插件成功后,通过插件连接DFS时仍有An internal error occurred during: "Connecting to DFS hadoop1.2.1".异常, 打开error.log,查看错误异常 Caused by: java.lang.ClassN...

2013-11-15 12:03:23

阅读数 4408

评论数 3

转载 win7下编译hadoop1.2.1 eclipse插件

最近一段时间都在学习hadoop,下载的是1.2.1的版本,包括源码;发现在该版本的安装目录下不再提供eclipse的插件包;但是在src/contrib目录下依然有eclipse-plugin的目录用于提供插件的源码,以及对应的Ant使用的build.xml文件; 为了开发Map/Reduce...

2013-11-14 17:48:27

阅读数 1620

评论数 0

原创 java并发线程优化之线程引入的开销

如何让多线程优于单线程程序,很简单的一个原则:多线程并行带来的优势要优于引入多线程带来的开销。 下面来讨论多线程在哪些方面会带来开销: 1,切换上下文       产生原因举例:多线程竞争锁时被阻塞,该线程就会阻塞,会被jvm挂起,造成上下文切换,目的是为了新线程分配新的资源...

2013-11-12 11:07:33

阅读数 1801

评论数 0

转载 cap理论

一、概述   Eric Brewer 教授提出了非常著名的CAP 理论,后人也论证了CAP 理论的正确性。 CAP理论指出:一个分布式系统不可能同时满足一致性(Consistency),可用性(Availibility) 和分区容忍性(Partition Tolerance)这三个需求。最多只...

2013-11-11 10:00:24

阅读数 1008

评论数 0

转载 基于Solr的LBS(地理位置搜索)实现原理

基于Solr的空间搜索学习笔记 在Solr中基于空间地址查询主要围绕2个概念实现: (1) Cartesian Tiers 笛卡尔层 Cartesian Tiers是通过将一个平面地图的根据设定的层次数,将每层的分解成若干个网格,如下图所示:       每层以2的评方递增,所以...

2013-11-08 17:38:57

阅读数 9408

评论数 0

转载 跳表SkipList

1.聊一聊跳表作者的其人其事 2. 言归正传,跳表简介 3. 跳表数据存储模型 4. 跳表的代码实现分析 5. 论文,代码下载及参考资料  . 聊一聊作者的其人其事  跳表是由William Pugh发明。他在 Communications of the ACM June 19...

2013-11-08 17:10:08

阅读数 876

评论数 0

转载 Unique索引优化实践(闭哈希表、跳表、分词字典)

Unique索引,有时也称Primary Key索引,顾名思义就是对于这个索引字段每个doc的值都是唯一的,如各种id字段:product id,customer id, campaign id和bidword id等。这种类型的索引一般用来进行高效的查询,最典型的应用场景就是进行附表join查询...

2013-11-08 15:26:00

阅读数 1188

评论数 0

转载 基于hadoop创建lucene索引(二)编程模型二

针对上篇提到的问题,我们采用一个新的编程模型来提高程序执行效率。在上篇所述的编程模型里,lucene创建索引的大部分开销集中在了reduce端,受限于reduce个数(因业务需要reduce个数不能随意增加),且索引合并过程完全依赖于磁盘读写速度。由此可找到两个突破口: 1.把大部分开销转移到m...

2013-11-08 12:02:00

阅读数 1242

评论数 0

转载 基于hadoop创建lucene索引(一)编程模型一

场景:面对10亿级别微博数据进行索引是一个挑战。单机无法在可接受的时间内创建全量索引和增量索引,因此我们采用基于hadoop map-reduce并行计算的方式,实现索引创建、更新。 Map-Reduce模型回顾: Hdfs文件读写、lucene索引读写特点:     Hdfs是hado...

2013-11-08 12:01:29

阅读数 1599

评论数 0

转载 binlog增量数据代替Dump DB增量解决方案

背景介绍:试用报告数据在DB底层打通评价数据,报告数据就分散到评价的32个数据库,2048张表里。因为基本的业务需求是打通数据并且将报告接入搜索。为了考虑业务灵活性,选择终搜平台来完成报告的全量和增量。全量模块通过Tsearch 基于评价以及IC的云梯表,join做的全量dump。因为增量通过s...

2013-11-08 11:26:21

阅读数 1080

评论数 0

转载 Twitter研发人员John Oskasson分析Twitter后台软件栈

Twitter研发人员John Oskasson分析Twitter后台软件栈 作者 郑柯 发布于 二月 12, 2013 | 讨论 新浪微博 腾讯微博 豆瓣网 Twitter Facebook linkedin 邮件分享 更多 19 稍后阅读我...

2013-10-28 15:54:16

阅读数 828

评论数 0

转载 Finagle:一个支持多协议的RPC系统

Finagle是一个协议不可知的,异步的,用于 JVM 的 RPC 系统,它使得在 Java、Scala 或任何基于JVM 的语言重构建鲁棒的客户端和服务器非常容易。 在 Twitter.com上面即使是渲染最简单的网页也需要十多个说着不同协议的网络服务的合作。比如,为了渲染首页,应用程...

2013-10-28 15:45:39

阅读数 1004

评论数 0

转载 weka分类器-C4.5决策树

1.     算法概述  C4.5,是机器学习算法中的另一个分类决策树算法,它是决策树(决策树也就是做决策的节点间的组织方式像一棵树,其实是一个倒树)核心算法,是相对于ID3算法的改进,主要改进点有: 1.      用信息增益率来选择属性。C4.5克服了ID3用信息增益选择属性时偏向选择取值...

2013-10-28 13:35:24

阅读数 1444

评论数 0

转载 淘宝用户行为分析(三)(淘宝用户个性化标签)

2013-10-25 阿里技术嘉年华   分析需要回答三个问题,用户行为分析也不例外。       前面我们聊了用户行为分析的内容、目的、差异性和流动性。这里再聊聊传播性。     当你想买一个东西的时候,若你是个理性的消费者,你就会考虑7要素:该不...

2013-10-28 09:05:50

阅读数 2070

评论数 0

转载 淘宝用户行为分析(二)(用户个性化标签)

2013-10-25 阿里技术嘉年华    上篇博文我们聊了两个问题:用户行为的研究内容和用户的差异性。这里我们再聊聊用户的流动性。     如果把用户比作流动的水,那么企业就是蓄水池,新用户从进水管流入,老用户从出水管流出。企业要灌溉庄稼获取收成,就要有一定的蓄水量,就必须...

2013-10-28 09:04:50

阅读数 3192

评论数 0

转载 淘宝用户行为分析

2013-10-24 贾元乔 阿里技术嘉年华  你的营销虽林林种种,但却有一个永恒的轴心:用户。     用户行为指挥着营销活动的走向:从新品开发到价格制定;从渠道管理到品牌管理……,营销围绕用户展开,用户行为分析是营销工作的首要环节。 用户行为分析需要回答三个问题: ...

2013-10-25 13:34:55

阅读数 2820

评论数 0

转载 一淘点评情感分析方法及应用场景

2013-10-23 水德 阿里技术嘉年华     点评是非常重要的一类UGC数据,里面含有大量的用户反馈信息。点评情感分析(sentiment analysis)负责对点评进行情感信息的抽取、聚合和应用。基于情感分析结果,可以更加有效的过滤、筛选、排序、概括和展现点评的内容,方便...

2013-10-25 13:33:42

阅读数 1260

评论数 0

转载 Windows下eclipse+CDT+MinGW环境配置

时间:2011.1.3 鉴于网上很多方法的软件版本都过时或多或少都会出现写问题,现收录总结如下,本人安装的所有软件都是截止2010年末最新版本,详情如下: OS: Windows 7(不过Sp1好像出来了) Eclipse: eclipse-java-helios-SR1-win32 (...

2013-10-23 20:15:42

阅读数 993

评论数 0

转载 漫谈大数据仓库与挖掘系统:BSP模型(应用于数据挖掘、机器学习的云计算模型)

2013-10-22 卡特 阿里技术嘉年华 本文其它章节:    漫谈大数据仓库与挖掘系统:前言:大数据的价值  【回复071查看】   漫谈大数据仓库与挖掘系统:层次、维度与主题【回复072查看】   漫谈大数据仓库与挖掘系统:ETL的开始—数据的传输和同步【回复073查...

2013-10-23 09:15:14

阅读数 2177

评论数 5

转载 LINUX系统下解决time_wait 连接数过多问题

经常检查apache的连接数,会发现很多无用的time_wait连接。有人说这是正常的,是因为一个请求中途中断造成的;还有人说微软的IE连接时产生的Time_wait会比用Firefox连接时多。个人认为有一定的Time_wait是正常的,如果超过了连接数的比例就不是很正常,所以还是找来方法解决一...

2013-10-21 09:39:36

阅读数 2632

评论数 0

转载 淘宝反作弊举报系统

反作弊举报系统        反作弊举报系统主要是用户作弊信息收集。对于作弊严重的卖家,我们将给予全店铺搜索降权或屏蔽处理。通过该系统的举报信息收集,优化作弊商品识别算法,净化淘宝搜索环境,从而给诚信经营的卖家一个更公平竞争的平台,给消费者更好的购物体验。 如何举报作弊商品? 1. ...

2013-10-18 13:28:30

阅读数 2124

评论数 0

转载 如何预测用户query意图

2013-10-13 仁重 阿里技术嘉年华     有一个朋友问,一个用户搜索一个query是“百度”,怎么知道用户真正是想找什么呢。          我回答说,分析之前搜索这个query的用户点了些什么结果啊。          朋友继续问,如果没有用户点击呢。   ...

2013-10-18 13:26:42

阅读数 990

评论数 0

转载 漫谈大数据仓库与挖掘系统:MapReduce与大规模离线计算系统

013-10-11 阿里技术嘉年华 上集回顾: 什么是大数据?【回复071查看】 层次、维度与主题【回复072查看】 一切的开始—数据的传输和同步【回复073查看】       读过本文的前三个章节的读者,对大数据系统应该已经有了一个初步的认识,并且已经清楚的...

2013-10-17 13:39:11

阅读数 1194

评论数 0

转载 漫谈大数据仓库与挖掘系统:数据的传输和同步

2013-10-10 卡特 阿里技术嘉年华 上集回顾: 什么是大数据?【回复071查看】 层次、维度与主题【回复072查看】       在前面的章节中,我们提到,本文最终的目的,是带领大家构造设计一个“全民信息数据挖掘系统”。而在上一节中,我们得知,数据仓库的特性之一...

2013-10-17 13:38:33

阅读数 1289

评论数 0

转载 漫谈大数据仓库与挖掘系统--层次、维度与主题

2013-10-09 阿里技术嘉年华     上集回顾:什么是大数据?【回复071查看】       在上一章节的末尾,我们谈到,这个系列的文章,最终会以我国公安机关拥有的公民信息、加上民航部门拥有的出行信息、银行拥有的交易信息等数据为例,逐渐讲述如何构建一个大数据的国民信息挖掘系...

2013-10-17 13:37:39

阅读数 1117

评论数 0

转载 淘宝商品图片的图像比较实现和研究

2013-09-15  阿里技术嘉年华 一. 背景介绍       淘宝有着数量巨大商品,如何分析这些商品之间的关系是淘宝中面临的一个挑战。特别是淘宝区别于京东和亚马逊在于淘宝很多是非标类,而且商品又来自数量巨大的各个不同卖家所以导致了商品种类的丰富性并且随之带来的一定重...

2013-10-17 13:34:39

阅读数 1477

评论数 0

转载 淘宝从空间预测到个性化推荐

2013-09-07  阿里技术嘉年华 文/徐萧萧 【导读】本文分享了从空间预测到推荐领域的一些前沿思路,这些思路一定程度上可以缓解推荐领域中的一大难题:多样性问题。      个性化推荐相信大家都不会陌生,当前已经深入到了我们很多的业务场景,基本上谈到电子商务和...

2013-10-17 13:33:33

阅读数 983

评论数 0

转载 淘宝大型数据仓库的治理(4)-数据安全不可控

2013-08-29  阿里技术嘉年华 文/通贯 【导读】这是共四篇的数据仓库治理系列,本文是第四篇,回复数据仓库可查看整个系列。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“数据安全不可控”的问题,大数据时代,你值得关注。      ...

2013-10-16 13:26:21

阅读数 915

评论数 0

转载 淘宝大型数据仓库的治理(3)-维护成本高

2013-08-27  阿里技术嘉年华 文/通贯 【导读】数据仓库治理系列文章,本文是第三篇,你可以回复数据仓库(当然需要先关注微信号alibabatech)查看整个系列。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“维护成本高”的问题,大...

2013-10-16 13:25:41

阅读数 1051

评论数 0

转载 淘宝大型数据仓库的治理(2)- 数据质量不可靠

2013-08-26  阿里技术嘉年华 文/通贯 【导读】数据仓库治理系列文章,本文是第二篇,你可以回复数据仓库(当然需要先关注微信号alibabatech)查看整个系列。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“数据质量不可靠”的问题...

2013-10-16 13:24:57

阅读数 984

评论数 0

转载 淘宝大型数据仓库的治理(1)- 数据需求响应慢 实时相应需求

2013-08-25  阿里技术嘉年华 文/通贯 【导读】这是共四篇的数据仓库治理系列,本文是第一篇。作者从实际经验中,总结出了一些大型数据仓库治理中,可能会遇到的问题。本文谈到了“数据需求响应慢”的问题,大数据时代,你值得关注。        数据仓库是继ERP之后失...

2013-10-16 13:23:56

阅读数 1157

评论数 0

转载 一淘商品类目预测

2013-08-20  阿里技术嘉年华 文/元宗 【导读】本文从商品类目预测的难点分析出发,衍生出一淘商品类目预测的架构以及实现,同时还对商品类目预测的进阶提出了畅想。适合想对商品类目预测有一些了解的同学阅读。  什么是一淘商品类目预测     一淘...

2013-10-16 13:22:17

阅读数 1300

评论数 0

转载 淘宝关键词推荐技术介绍

2013-08-19  阿里技术嘉年华 文/太紫 【导读】本文通过行业对比等角度分析了关键词推荐技术及工具,关键词推荐系统帮助广告主扩展选词思路,挖掘有价值的关键词,从而更好地提升产品的曝光,帮助广告主找到客户;同时,一个好的关键词推荐系统也能更好地服务用户,帮助用户快...

2013-10-16 13:20:53

阅读数 812

评论数 0

转载 国际站反作弊系列之 — 类目错放

2013-08-16  阿里技术嘉年华 文/王涛   【导读】本文就反作弊里边的一个大话题:类目错放,进行了一个较为详尽的分析。包括有如何识别类目错放、以及目前识别遇到的问题等。适合想对反作弊有所深入了解的同学阅读。     国际站特指阿里巴巴的两个...

2013-10-14 13:13:33

阅读数 965

评论数 0

转载 国际站反作弊系列之 — 反作弊介绍

2013-08-15 阿里技术嘉年华 文/王涛   【导读】本文将国际站在反作弊方面的经验总结出来,希望给大家一些参考。目前面临的难点分为技术、非技术两个方面。技术方面是如何更好的将机器学习模型实践应用,非技术的方面是网站的整体信息质量并不完善。 一、简介 ...

2013-10-14 13:12:58

阅读数 1125

评论数 0

提示
确定要删除当前文章?
取消 删除