2014年06月_liyonghui123

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 MapReduce的模式算法

一张图详细总结了几种网上或者论文中常见的MapReduce模式和算法，并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的 MapReduce模型，包括Mappers, Reduces, Combiners, Partitioners,和 sorting。如下图所示。 ...

2014-06-30 12:49:41 94

原创 Frequent Pattern 挖掘之二(FP Growth算法)

Frequent Pattern 挖掘之二(FP Growth算法)FP树构造FP Growth算法利用了巧妙的数据结构，大大降低了Aproir挖掘算法的代价，他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达到这样的效果，它采用了一种简洁的数据结构，叫做frequent-pattern tree(频繁模式树)。下面就详细谈谈如何构造这个树，举例是最好的方法。...

2014-06-27 14:17:36 336

原创 k-means和knn算法区别

k-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类...

2014-06-27 10:58:36 469

原创 K-Means聚类算法理解

k-means 算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类（即下面c个类别）以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。　　K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算...

2014-06-26 18:18:07 391

原创数据挖掘算法之-关联规则挖掘(Association Rule)（购物篮分析）

1.置信度(confidence)定义：设W中支持物品集A的事务中，有c ％的事务同时也支持物品集B，c ％称为关联规则A→B 的可信度。通俗解释：简单地说，可信度就是指在出现了物品集A 的事务T 中，物品集B 也同时出现的概率有多大。实例说明：上面所举的圆珠笔和笔记本的例子，该关联规则的可信度就回答了这样一个问题：如果一个顾客购买了圆珠笔，那么他也购买笔记本...

2014-06-25 17:04:49 1696

原创 knn距离公式比较

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1， x...

2014-06-24 18:47:23 1449

原创 KNN推荐系统应用

如果做网站的内容运营，相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息，从而提升网站内容浏览的流畅性，进而提升网站的价值转化。相关内容推荐最常见的两块就是“关联推荐”和“相关内容推荐”，关联推荐就是我们常说的购物篮分析，即使用购买了某商品的用户同时购买了什么这个规则来发现商品间的潜在联系，之前有相关的文章介绍——向上营销、交叉营销与关联推荐；关联推荐是基于用户行为分析的推荐，而相关内...

2014-06-24 18:35:58 885

原创 kafka_2.9.2-0.8.1.1分布式集群搭建代码开发实例

准备3台虚拟机, 系统是RHEL64服务版.1) 每台机器配置如下:$ cat /etc/hosts # zookeeper hostnames: 192.168.8.182 zk1 192.168.8.183 zk2 192.168.8.184 zk3 2) 每台机器上安装jdk, zookeeper, kafk...

2014-06-24 14:44:19 282

原创高性能消息系统——Kafka

什么是Kafka？引用官方原文： “Kafka is a distributed, partitioned, replicated commit log service.”它提供了一个非常特殊的消息机制，不同于传统的mq。官网：https://kafka.apache.org它与传统的mq区别？更快！单机上万TPS 传统的MQ，消息被消化掉后会被mq删除，而kafka中消息...

2014-06-24 13:51:09 97

原创 storm 的一个drpc例子

public static void initConnectDB(){ primaryKey = "id"; rdbmsUrl = "jdbc:mysql://hadoop/DB" ; rdbmsUserName = ""; rdbmsPasswor...

2014-06-24 11:08:15 82

原创 memcached常用命令

1、首先，总结一下memcached的一些基本设置 -p 监听的端口 -l 连接的IP地址, 默认是本机 -d start 启动memcached服务 -d restart 重起memcached服务 -d stop|shutdown 关闭正在运行的memcached服务 -d install 安装memcached服务 -d un...

2014-06-23 17:59:22 142

原创 memcache安装

1【libevent】1.1 编译安装tar -zxvf libevent-1.4.14b-stable.tar.gz //先解压缩cd libevent-1.4.14b-stable //切换到libevent的目录中./configure --prefix=/usr/libevent //指定安装路径到/usr/目录下make //编译make install //安装1.2 ubu...

2014-06-23 15:27:22 69

原创 memcache使用细节

一监控查看memcahe服务器的状态，通常我们使用2个命令1）telnet 127.0.0.1 11211查看全局stats查看slabstats slabs查看itemstats items2）vmstat 1 -S M二使用细节，注意的问题1）节点过热如果memcached有个别节点容量耗光，同时并发很大。那么需要重新分配一致性hash的服务器分布。或者增加虚拟节点2）缓存预热如果...

2014-06-23 15:21:37 91

原创 Xmemcached使用之与Spring整合

<dependency> <groupId>com.googlecode.xmemcached</groupId> <artifactId>xmemcached</artifactId> <version>1.4.3</version> <type&gt

2014-06-23 14:26:52 183

原创常用推荐算法

在推荐系统简介中，我们给出了推荐系统的一般框架。很明显，推荐方法是整个推荐系统中最核心、最关键的部分，很大程度上决定了推荐系统性能的优劣。目前，主要的推荐方法包括：基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐基于内容的推荐（Content-based Recommendation）是信息过滤技术...

2014-06-19 10:54:05 1057

原创关联规则—频繁项集Apriori算法

频繁模式和对应的关联或相关规则在一定程度上刻画了属性条件与类标号之间的有趣联系，因此将关联规则挖掘用于分类也会产生比较好的效果。关联规则就是在给定训练项集上频繁出现的项集与项集之间的一种紧密的联系。其中“频繁”是由人为设定的一个阈值即支持度（support）来衡量，“紧密”也是由人为设定的一个关联阈值即置信度（confidence）来衡量的。这两种度量标准是频繁项集挖掘中两个至关...

2014-06-16 13:04:38 9962

原创 Apriori算法求数组的非空子集java代码

Apriori算法求集合的非空子集java代码 public class Test { public static void main(String[] args) { String str="abcd" ; //用Set集合保存结保证内容重复 Set<String>...

2014-06-16 12:49:39 359

原创 Zookeeper .Net客户端代码

本来此客户端可以通过NuGet获取，如果会使用NuGet, 则可以使用命令Install-Package ZooKeeperNet（需要最新版本的NuGet）如果不会，就去 NuGet官网了解http://docs.nuget.org/docs/start-here/using-the-package-manager-console如果你想自己编译你可以去GitHub下载源码https...

2014-06-13 09:38:31 172

原创关于推荐个人观点

回想起来，我也做推荐了3年多了，最近公司做了调整招聘了很多算法工程师，以为需要多么高大上的算法才能搭建起来的，从实践中走过来，我只想说【不是这样的】第一次接触推荐系统是在四年前入职的时候，那时候，机器学习和大数据都是没有的概念，什么大数据处理开源软件根本不存在，我们用多台计算机web程序记录用户行为，用.net的wcf框架实现了和现在mapreduce一样的功能，分析了用户...

2014-06-12 15:36:25 265

原创 windows文件同步到linux

windows做为文件服务器，使用rsync的windows服务版本，然后配置好就可以了。需要的朋友可以参考下。windows做为文件服务器，使用rsync的windows服务版本：cwRsyncServer 下载地址：http://rsync.samba.org 安装过程要设置用于系统服务的帐号和密码，可以默认。注：此帐号用于启用crsync server服务，需要分配给帐号对要同步文...

2014-06-11 17:49:23 145

原创海量Web日志分析用Hadoop提取KPI统计指标

前言Web日志包含着网站最重要的信息，通过日志分析，我们可以知道网站的访问量，哪个网页访问人数最多，哪个网页最有价值等。一般中型的网站(10W的PV以上)，每天会产生1G以上Web日志文件。大型或超大型的网站，可能每小时就会产生10G的数据量。对于日志的这种规模的数据，用Hadoop进行日志分析，是最适合不过的了。目录 Web日志分析概述需求分析：KPI指标设计算法模...

2014-06-10 13:47:38 190

原创 TransactionalTopology分析

事务性Topologies是包含在Storm0.7.0版本中的新特性，它激活消息语义来确保你以一种安全的方式重放元组并且它们只会被处理一次。没有事务性topologies的支持，你不可能以一种完全精确、可扩展和容错的方式计数。事务性Topologies是建立标准Storm spout和bolts之上的一个抽象。设计在事务性topology中，Storm使用并行和顺序元组处理的混合模式。S...

2014-06-10 10:00:51 127

原创 tomcat设置内存

1 、Tomcat 默认可以使用的内存为128MB ，在较大型的应用项目中，这点内存是不够的，有可能导致系统无法运行。常见的问题是报Tomcat 内存溢出错误，Out of Memory( 系统内存不足) 的异常，从而导致客户端显示500 错误，一般调整Tomcat 的使用内存即可解决此问题。Windows 环境下修改“%TOMCAT_HOME%/bin/catalina.bat ...

2014-06-10 09:58:21 319