fufeng_andy-CSDN博客

原创话题监测与发现之热点新闻发现技术

最近在帮朋友做一个关于“热点新闻发现”的需求。先解释下什么是热点新闻发现：即在海量的新闻文本中，找到内容相似的那一类新闻，如果这类新闻的数量达到一定阈值，便认为该类新闻属于热点新闻。其实这一类型的课题早在几年前就已经开始研究，属于TDT（Topic Detecting and Tracking话题检测与发现）分支之一，而且方法也较为成熟，多半是在文本分析的基础上利用数据挖掘中聚...

2013-01-25 09:51:15 1297 1

<人人都是产品经理>读后感

前段时间刚把苏杰同学的《人人都是产品经理》看完，早有耳闻，读完后第一感觉是：接地气——可能因为笔者曾在淘宝待过，而苏杰这本书的大部分原材料都取至阿里，因此书中所述内容笔者或多或少经历过。关于怎么才叫看过一本书，笔者的定义是：不仅自己看懂，并且能将其分享讲出来。因此，该本书也不例外，看完后花了一定时间准备PPT并在在团队内部进行了两次分享。而之所以写本文，主要是想描述当时笔者...

2013-01-18 13:45:20 308

原创问题排查之OOM （非原创，来自于同事的邮件分享）

非原创，来自于同事的邮件分享。前段时间在测试过程中发现了mina框架的问题：当mina一次传输的文件超过一定值（如55m）或者连续传输文件的次数过于频繁，就会内存溢出：org.apache.mina.filter.codec.ProtocolEncoderException:java.lang.OutOfMemoryError: Java heap space...

2013-01-10 10:08:36 187

原创【转载】专访当当网前COO黄若：我只做从40到100的事情

专访当当网前COO黄若：我只做从40到100的事情作者:未知更新时间:2011-8-27 19:40:27 来源:不详【字号: 大中小】浏览1349次我为8月号《天下网商·经理人》写的稿子。发表时有删节，这里是原稿。------黄若，资深零售人，曾创办过淘宝商城，帮助当当网登陆纽交所，现卸任赋闲在家。“职业经理人这个名词在中国完完全...

2013-01-10 10:08:13 343

原创【转载】推荐几个数据分析网站

From http://blog.sina.com.cn/s/blog_5fc375650100oktm.html随着数据的数量级增长，促进了数据分析的火热。但很多数据分析从业人员却感觉没有很好的获取行业资讯、技术交流的平台，今天就推荐几个经常上的觉得很不错的网站给大家。 1.人大经济论坛-计量经济学与统计区 http://www.pinggu.org/bbs/inde...

2013-01-04 09:45:16 1005 1

原创数据挖掘只言片语

写了好几篇关于数据挖掘算法的帖子，都属于技术上的细节贴。这篇文章主要对”数据挖掘”进行概述，让大家可以一窥数据挖掘的全貌。闲话不多说，直接进入主题。 1什么是数据挖掘业界多将“数据挖掘”定义得很玄乎，个人觉得多有炒作概念之嫌。的确，数据挖掘给使用者带来很多“意想不到”的结果（惊喜or 惊吓，嘿嘿），但并不是只有利用了高深、复杂理论的技...

2013-01-04 09:44:58 273

原创【转载】周报的逻辑

最近新同事加入很多，按照我的要求，入职半年内需要发送周报给我，半年后自己选择是否仍需发送。这里有个看起来很愚蠢的问题。为什么要发周报？行业内可能大部分的人都认为，周报就是流水账，是主管显示权力的手段。最后还就真把它给搞成了一封流水账，或寥寥数语。但这是错误的理解。在职场中，有一条冷酷定律，叫做“如果主管不知道你做了某件事情，相当于你就没有做过这件事情。”听上去不近人情，其 ...

2013-01-04 09:44:37 377

原创如何解决包冲突问题

随着业务需求的不断扩展，应用中代码量也会逐渐增长，工程中引用的二方包或者三方包也自然而然会越来越多。因此，不可避免，可能存在引用的二方包或三方包相互冲突所导致的系统问题。本文将针对前段时间遇到的实际案例进行分析，旨在当遇到包冲突问题时该如何解决，并提供同事用 python 写的一个发现包冲突的小工具（十分有用！）一发现问题：首先，让我们看下异常，这是在...

2013-01-03 17:58:00 701

原创【转载】如何预测用户query意图

From http://www.searchtb.com/2011/01/how-to-predict-user-query-intent.html 有一个朋友问，一个用户搜索一个query是“百度”，怎么知道用户真正是想找什么呢。我回答说，分析之前搜索这个query的用户点了些什么结果啊。朋友继续问，如果没有用户点击呢。呃，如果没有点击，这个问题就比较复杂了。整理了下思路...

2013-01-03 17:57:36 146

原创初学者如何搭建zookeeper

Step 1 下载 zookeeper 下载地址：http://www.apache.org/dyn/closer.cgi/zookeeper/ 直接下载到Linux服务器上请使用 wget 命令如： wget http://labs.renren.com/apache-mirror//zookeeper/zookeeper-3.4.2/zookeeper-3.4.0.tar.gz...

2013-01-03 17:57:10 145

From http://www.cnblogs.com/mdyang/archive/2011/08/22/why_mapreduce.html现在MapReduce/Hadoop以及相关的数据处理技术非常热，因此我想在这里将MapReduce的优势汇总一下，将MapReduce与传统基于HPC集群的并行计算模型做一个简要比较，也算是对前一阵子所学的MapReduce知识做一个总结和梳理。引言随着...

2013-01-03 17:56:46 123

原创【转载】Kano模型在用户调研中的应用：客户关系管理工具调研实例

原文链接：http://www.alibuybuy.com/posts/77204.html1、Kano模型简介 1.1 Kano模型起源：满意度的二维模式著名市场营销学大师、美国西北大学教授菲利普•科特勒说过：满意是指一个人通过对一个产品的可感知的效果与他的期望值相比较后，所形成的愉悦或失望的感觉状态。在竞争日益激烈的当下，用户的满意度直接影响着用户对于企业/产品的忠诚度，进而影响用户...

2013-01-03 17:56:17 1262

原创关联规则（二）强关联规则一定就是用户感兴趣的规则吗

关联规则算法 Apriori 表明 , 当蕴含式A->B 满足最小支持度阈值 min_support 和最小置信度阈值 min_confidence 时，则 A->B 属于强关联规则，规则中包含用户感兴趣的知识。但真的是这样吗？让我们先看个例子。假设某家商场只卖两种商品： CD 机和 Mp3 两种音乐播放器，每天的交易...

2012-12-28 08:58:46 3542

原创关联规则（一）Apriori算法

1．挖掘关联规则1.1 什么是关联规则一言蔽之，关联规则是形如X→Y的蕴涵式，表示通过X可以推导“得到”Y，其中X和Y分别称为关联规则的先导(antecedent或left-hand-side,LHS)和后继(consequent或r...

2012-12-28 08:58:17 1712

原创聚类分析（七）离群点分析

一、什么是离群点分析1、什么是离群点？在样本空间中，与其他样本点的一般行为或特征不一致的点，我们称为离群点。2、离群点产生的原因？第一，计算的误差或者操作的错误所致，比如：某人的年龄-999岁，这就是明显由误操作所导致的离群点；第二，数据本身的可变性或弹性...

2012-12-28 08:57:32 3796

原创聚类分析（六）基于密度的聚类算法 — OPTICS

1 什么是OPTICS算法在前面介绍的DBSCAN算法中，有两个初始参数E（邻域半径）和minPts(E邻域最小点数)需要用户手动设置输入，并且聚类的类簇结果对这两个参数的取值非常敏感，不同的取值将产生不同的聚类结果，其实这也是大多数其他需要初始化参数聚类算法的弊端。为了克服DBSCAN算法这一缺点，提出了OPTICS算...

2012-12-28 08:57:16 3200

聚类分析（五）基于密度的聚类算法 — DBSCAN

一什么是基于密度的聚类算法由于层次聚类算法和划分式聚类算往往只能发现凸形的聚类簇。为了弥补这一缺陷，发现各种任意形状的聚类簇，开发出基于密度的聚类算法。这类算法认为，在整个样本空间点中，各目标类簇是由一群的稠密样本点组成的，而这些稠密样本点被低密度区域（噪声）分割，而算法的目的就是要过滤低密度区域，发现稠密样本点。二 DBSCAN（Density-based ...

2012-12-27 15:35:35 502

原创聚类分析（四）层次聚类算法

层次聚类算法：前面介绍的K-means算法和K中心点算法都属于划分式（partitional）聚类算法。层次聚类算法是将所有的样本点自底向上合并组成一棵树或者自顶向下分裂成一棵树的过程，这两种方式分别称为凝聚和分裂。凝聚层次算法:初始阶段，将每个样本点分别当做其类簇，然后合并这些原子类簇直至达到预期的类簇数或者其他终止条件。分裂层次算法...

2012-12-27 15:31:06 789

原创聚类分析（三） K中心点算法（k-mediods）

K中心点算法（K-medoids）前面介绍了k-means算法，并列举了该算法的缺点。而K中心点算法（K-medoids）正好能解决k-means算法中的“噪声”敏感这个问题。如何解决的呢？首先，我们得介绍下k-means算法为什么会对“噪声”敏感。还记得K-means寻找质点的过程吗？对某类簇...

2012-12-27 15:28:23 7026

原创聚类分析（二） K-MEANS

K-means算法一般情况，聚类算法可以划分为以下几类：划分方法（partitioning method）、层次方法（hierarchicalmethods）、基于密度的方法（density-based methods）、基于网格的方法（grid-based methods）、基于模型的方法（model-based methods）.k-means算法属...

2012-12-27 15:24:39 557

原创聚类分析（一）什么是聚类分析

将一群物理对象或者抽象对象的划分成相似的对象类的过程。其中类簇是数据对象的集合，在类簇中所有的对象都彼此相似，而类簇与类簇之间的对象是彼此相异。聚类除了可以用于数据分割（data segmentation）,也可以用于离群点检测（outlierdetection）,所谓的离群点指的是与“普通”点相对应的“异常”点，而这些“异常”点往往值的注意。 ...

2012-12-27 15:22:31 2941

一个只愿意做到80分的懒人