自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 资源 (53)
  • 收藏
  • 关注

原创 MapReduce的模式算法

        一张图详细总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的 MapReduce模型,包括Mappers, Reduces, Combiners, Partitioners,和 sorting。 如下图所示。  ...

2014-06-30 12:49:41 94

原创 Frequent Pattern 挖掘之二(FP Growth算法)

 Frequent Pattern 挖掘之二(FP Growth算法)FP树构造FP Growth算法利用了巧妙的数据结构,大大降低了Aproir挖掘算法的代价,他不需要不断得生成候选项目队列和不断得扫描整个数据库进行比对。为了达 到这样的效果,它采用了一种简洁的数据结构,叫做frequent-pattern tree(频繁模式树)。下面就详细谈谈如何构造这个树,举例是最好的方法。...

2014-06-27 14:17:36 336

原创 k-means和knn算法区别

       k-means算法接受输入量k;然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。首先从n个数据对象任意选择k个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类...

2014-06-27 10:58:36 469

原创 K-Means聚类算法理解

         k-means 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类(即下面c个类别)以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。    K-means算法是最为经典的基于划分的聚类方法,是十大经典数据挖掘算法之一。K-means算...

2014-06-26 18:18:07 391

原创 数据挖掘算法之-关联规则挖掘(Association Rule)(购物篮分析)

   1.置信度(confidence)定义:设W中支持物品集A的事务中,有c %的事务同时也支持物品集B,c %称为关联规则A→B 的可信度。通俗解释:简单地说,可信度就是指在出现了物品集A 的事务T 中,物品集B 也同时出现的概率有多大。实例说明:上面所举的圆珠笔和笔记本的例子,该关联规则的可信度就回答了这样一个问题:如果一个顾客购买了圆珠笔,那么他也购买笔记本...

2014-06-25 17:04:49 1696

原创 knn距离公式比较

       在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x...

2014-06-24 18:47:23 1449

原创 KNN推荐系统应用

 如果做网站的内容运营,相关内容推荐可以帮助用户更快地寻找和发现感兴趣的信息,从而提升网站内容浏览的流畅性,进而提升网站的价值转化。相关内容推荐最常见的两块就是“关联推荐”和“相关内容推荐”,关联推荐就是我们常说的购物篮分析,即使用购买了某商品的用户同时购买了什么这个规则来发现商品间的潜在联系,之前有相关的文章介绍——向上营销、交叉营销与关联推荐;关联推荐是基于用户行为分析的推荐,而相关内...

2014-06-24 18:35:58 885

原创 kafka_2.9.2-0.8.1.1分布式集群搭建代码开发实例

 准备3台虚拟机, 系统是RHEL64服务版.1) 每台机器配置如下:$ cat /etc/hosts    # zookeeper hostnames:      192.168.8.182       zk1      192.168.8.183       zk2      192.168.8.184       zk3  2) 每台机器上安装jdk, zookeeper, kafk...

2014-06-24 14:44:19 282

原创 高性能消息系统——Kafka

 什么是Kafka?引用官方原文: “Kafka is a distributed, partitioned, replicated commit log service.”它提供了一个非常特殊的消息机制,不同于传统的mq。官网:https://kafka.apache.org它与传统的mq区别?    更快!单机上万TPS    传统的MQ,消息被消化掉后会被mq删除,而kafka中消息...

2014-06-24 13:51:09 97

原创 storm 的一个drpc例子

    public static void initConnectDB(){ primaryKey = "id"; rdbmsUrl = "jdbc:mysql://hadoop/DB" ; rdbmsUserName = ""; rdbmsPasswor...

2014-06-24 11:08:15 82

原创 memcached常用命令

 1、首先,总结一下memcached的一些基本设置 -p 监听的端口 -l 连接的IP地址, 默认是本机 -d start 启动memcached服务 -d restart 重起memcached服务 -d stop|shutdown 关闭正在运行的memcached服务 -d install 安装memcached服务 -d un...

2014-06-23 17:59:22 142

原创 memcache安装

 1【libevent】1.1 编译安装tar -zxvf  libevent-1.4.14b-stable.tar.gz //先解压缩cd libevent-1.4.14b-stable //切换到libevent的目录中./configure --prefix=/usr/libevent //指定安装路径到/usr/目录下make //编译make install //安装1.2 ubu...

2014-06-23 15:27:22 69

原创 memcache使用细节

 一 监控查看memcahe服务器的状态,通常我们使用2个命令1)telnet 127.0.0.1 11211查看全局stats查看slabstats slabs查看itemstats items2)vmstat 1 -S M二 使用细节,注意的问题1)节点过热如果memcached有个别节点容量耗光,同时并发很大。那么需要重新分配一致性hash的服务器分布。或者增加虚拟节点2)缓存预热如果...

2014-06-23 15:21:37 91

原创 Xmemcached使用之与Spring整合

  <dependency>    <groupId>com.googlecode.xmemcached</groupId>    <artifactId>xmemcached</artifactId>    <version>1.4.3</version>    <type&gt

2014-06-23 14:26:52 183

原创 常用推荐算法

        在推荐系统简介中,我们给出了推荐系统的一般框架。很明显,推荐方法是整个推荐系统中最核心、最关键的部分,很大程度上决定了推荐系统性能的优劣。目前,主要的推荐方法包括:基于内容推荐、协同过滤推荐、基于关联规则推荐、基于效用推荐、基于知识推荐和组合推荐。一、基于内容推荐       基 于内容的推荐(Content-based Recommendation)是信息过滤技术...

2014-06-19 10:54:05 1057

原创 关联规则—频繁项集Apriori算法

      频繁模式和对应的关联或相关规则在一定程度上刻画了属性条件与类标号之间的有趣联系,因此将关联规则挖掘用于分类也会产生比较好的效果。关联规则就是在给定训练项集上频繁出现的项集与项集之间的一种紧密的联系。其中“频繁”是由人为设定的一个阈值即支持度 (support)来衡量,“紧密”也是由人为设定的一个关联阈值即置信度(confidence)来衡量的。这两种度量标准是频繁项集挖掘中两个至关...

2014-06-16 13:04:38 9962

原创 Apriori算法求数组的非空子集java代码

 Apriori算法求集合的非空子集java代码  public class Test { public static void main(String[] args) { String str="abcd" ; //用Set集合保存结保证内容重复 Set<String>...

2014-06-16 12:49:39 359

原创 Zookeeper .Net客户端代码

 本来此客户端可以通过NuGet获取,如果会使用NuGet, 则可以使用命令Install-Package ZooKeeperNet(需要最新版本的NuGet)如果不会,就去 NuGet官网了解http://docs.nuget.org/docs/start-here/using-the-package-manager-console如果你想自己编译 你可以去GitHub下载源码https...

2014-06-13 09:38:31 172

原创 关于推荐个人观点

回想起来,我也做推荐了3年多了,最近公司做了调整招聘了很多算法工程师,以为需要多么高大上的算法才能搭建起来的,从实践中走过来,我只想说【不是这样的】 第一次接触推荐系统是在四年前入职的时候,那时候,机器学习和大数据都是没有的概念,什么大数据处理开源软件根本不存在,我们用多台计算机web程序记录用户行为,用.net的wcf框架实现了和现在mapreduce一样的功能,分析了用户...

2014-06-12 15:36:25 265

原创 windows文件同步到linux

 windows做为文件服务器,使用rsync的windows服务版本,然后配置好就可以了。需要的朋友可以参考下。windows做为文件服务器,使用rsync的windows服务版本:cwRsyncServer 下载地址:http://rsync.samba.org 安装过程要设置用于系统服务的帐号和密码,可以默认。 注:此帐号用于启用crsync server服务,需要分配给帐号对要同步文...

2014-06-11 17:49:23 145

原创 海量Web日志分析 用Hadoop提取KPI统计指标

 前言Web日志包含着网站最重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。对于日志的这种规模的数据,用Hadoop进行日志分析,是最适合不过的了。目录    Web日志分析概述    需求分析:KPI指标设计    算法模...

2014-06-10 13:47:38 190

原创 TransactionalTopology分析

 事务性Topologies是包含在Storm0.7.0版本中的新特性,它激活消息语义来确保你以一种安全的方式重放元组并且它们只会被处理一次。没有事务性topologies的支持,你不可能以一种完全精确、可扩展和容错的方式计数。事务性Topologies是建立标准Storm spout和bolts之上的一个抽象。设计在事务性topology中,Storm使用并行和顺序元组处理的混合模式。S...

2014-06-10 10:00:51 127

原创 tomcat设置内存

 1 、Tomcat 默认可以使用的内存为128MB ,在较大型 的应用项目中,这点内存是不够的,有可能导致系统无法运行。常见的问题是报Tomcat 内存溢出错 误,Out of Memory( 系统内存不足) 的 异常,从而导致客户端显示500 错误,一般调整Tomcat 的 使用内存即可解决此问题。Windows 环境下修改“%TOMCAT_HOME%/bin/catalina.bat ...

2014-06-10 09:58:21 319

Ketama Hashing Algorithm

Ketama Hashing Algorithm java代码完全可以运行,已经添加了Node类,和一些注释。

2014-02-27

通用java分页后端服务代码

通用java分页后端服务代码,前段请自行实现。

2014-02-07

Highcharts line Demo

Highcharts line Demo

2013-12-08

Highcharts json

Highcharts实现的json提供数据的波浪线的实例

2013-12-05

Scribe日志记录讲解

thrift框架的分布式日志记录框架,支持多种语言实现。

2013-12-05

HighchartsDemo

Highchart非常好用的图标展示,纯js展示。可自行修改为支持json

2013-12-05

easyUI使用Demo

easyUI使用Demo,easyUI数据展示报表利器

2013-12-05

zookeeper dotnet客户端源码

zookeeper的dotnet客户端源码实现,ClientTests类为调用例子。

2013-10-15

Hadoop权威指南(第2版)

Hadoop权威指南(第2版)学习Hadoop MapReduce重要资料

2013-09-27

Hadoop in Action英文版

Hadoop in Action英文版,学习Hadoop MapReduce重要资料

2013-09-27

C#定时执行

C#定时执行,springQuartz定时器定时执行程序。执行时间可配置每秒,天,周,年执行一次

2013-09-18

debugbar-v7.0.zip

debugbar-v7.0 带注册机 win7下可以使用

2013-08-26

ThriftC#代码实现

ThriftC#代码实现,详细代码实现,文档见http://download.csdn.net/detail/liyonghui123/5770001

2013-07-17

查看java源码工具

查看java源码工具,查看打包好的jar中的java源码

2013-07-17

ThriftC#实现

ThriftC#实现,实现通过Thrift实现客户端和服务端调用,可以跨语言调用的例子

2013-07-17

zookeeper-3.4.5

zookeeper-3.4.5,分布式服务系统管理

2013-07-12

windows环境下thrift.exe的使用

windows环境下thrift.exe开发thrift

2013-07-12

webspring-mvc

上次写的那个引用乱了。 spring mvc+ibatis,webspring-mvc源码实例,实现了注解,拦截器,ibatis等实例

2013-06-17

Spring 注解学习手札

Spring 注解学习手札,个人学习Spring mvc的知识总结

2013-06-15

host快速切换工具

host快速切换工具,方便的切换host

2013-06-15

Maven下建立的spring+struts2+jstl实例

Maven下建立的spring+struts2+jstl实例

2013-06-15

webspring-mvc.rar

webspring-mvc源码实例,实现了注解,拦截器等实例

2013-06-15

spring_3.0_应用springmvc_构造RESTful_URL_详细讲解

pring_3.0_应用springmvc_构造RESTful_URL_详细讲解

2013-06-13

Spring3.0-mvc

Spring3.0-mvc初学者资料,Spring mvc简单示例

2013-06-08

C#多线程执行

C#,编写的多线程执行处理程序,同时执行多个任务,共大家参考。

2013-02-01

ConsistentHash(Ketama)

C#一致性hash算法,性能绝对最优。结算结果和Java版本结果完全相同。

2012-12-11

多线程安全dictionary

多线程下能够安全访问的Collections,dictionary

2012-11-23

jQueryAPI-100204 学习jQuery

jQueryAPI-100204 学习jQuery的基本知识,这里基本覆盖啦,有了它不用愁了。

2011-04-02

C#设计模式 设计模式 架构设计

设计模式 架构设计 更好的学好设计模式的书,可以帮助你很快的了解架构设计

2011-04-02

GOF_设计模式 设计模式 架构设计

设计模式 架构设计 更好的学好设计模式的书,可以帮助你很快的了解架构设计

2011-04-02

Ibatistest

Ibatis 实例 一个简单的学习Ibatis的例子

2010-07-28

server-u6.0完全破解

server-u6.0完全破解,完全解决试用30天的问题。

2010-04-25

SQL2005安装图解

SQL2005安装图解 安装cd2时报错,没有要升级的组件的原因及解决方法。

2010-04-25

zookeeper分布式锁

zookeeper分布式锁代码实现 适合大型集群

2014-12-21

Flume+Kafka+Storm分布式环境整合Eclipse工程

Flume+Kafka+Storm分布式环境整合Eclipse工程

2014-07-22

_Flume+Kafka+Storm分布式环境整合Eclipse工程

_Flume+Kafka+Storm分布式环境整合Eclipse工程

2014-07-22

thrift在windows下生成C#代码

thrift在windows下生成C#代码

2014-05-07

简单C#新闻发布系统

简单C#新闻发布系统,实现了静态页生成功能,只能简单操作,么有复杂实现。适合初学者,谢谢

2014-04-02

pring定时器的使用

pring定时器的使用,spring3.0确实是要简单好多,不过很多项目都还没有升级到spring3.0所以对于2.5的配置也需要了解。

2014-04-02

JqueryAjaxPage

JqueryAjaxPage前端分页控件

2014-02-26

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除