自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 资源 (8)
  • 收藏
  • 关注

转载 Redis.conf 配置

#是否以后台进程运行,默认为no,如果需要以后台进程运行则改为yesdaemonize no  #如果以后台进程运行的话,就需要指定pid,你可以在此自定义redis.pid文件的位置。pidfile /var/run/redis.pid  #接受连接的端口号,如果端口是0则redis将不会监听TCP socket连接port 6379 # If you

2013-12-06 15:36:29 563

转载 网络广告购买方式,RTB, DSP, AdExchange扫盲知识点汇总

1、90%的在线广告库存尚未销售出去;2、谷歌广告交易平台(AdEx)推出也就一年多而已,却成为该市场中最重要的一个平台,虽然并不是最大的平台……但“他们目前真的包含了很多信息”。3、(广告)机构都非常愿意与客户交流有关交易和需求方平台的事宜,但他们所说的大部分都过于乐观。  基本的行业平台在我深入这部分研究前,我先向你们介绍一些基本的业内平台:1、广告交易平台:一个开放的、能

2013-11-22 11:49:33 1632

翻译 redis-cli 命令总结

Redis提供了丰富的命令(command)对数据库和各种数据类型进行操作,这些command可以在Linux终端使用。在编程时,比如使用Redis 的Java语言包,这些命令都有对应的方法。下面将Redis提供的命令做一总结。官网命令列表:http://redis.io/commands (英文)1、连接操作相关的命令quit:关闭连接(connection) auth:简单密码

2013-11-22 11:35:24 620

转载 Bayesain Networks

2.2、重新考虑上一篇的例子      上一篇文章我们使用朴素贝叶斯分类实现了SNS社区中不真实账号的检测。在那个解决方案中,我做了如下假设:      i、真实账号比非真实账号平均具有更大的日志密度、各大的好友密度以及更多的使用真实头像。      ii、日志密度、好友密度和是否使用真实头像在账号真实性给定的条件下是独立的。      但是,上述第二条假设很可能并不成立。一般来说

2013-10-14 11:44:05 754

转载 Naive Bayesian classification

1.1、摘要      贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。本文作为分类算法的第一篇,将首先介绍分类问题,对分类问题进行一个正式的定义。然后,介绍贝叶斯分类算法的基础——贝叶斯定理。最后,通过实例讨论贝叶斯分类中最简单的一种:朴素贝叶斯分类。1.2、分类问题综述      对于分类问题,其实谁都不会陌生,说我们每个人每天都在执行分类操作一点

2013-10-14 11:41:37 832

转载 MinHash

1.概述    跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。2.Jaccard index    在介绍MinHash之前,我们先介绍下Jaccard index。

2013-10-14 11:38:14 918

转载 singular value decomposition----SVD

潜在语义索引(Latent Semantic Indexing)是一个严重依赖于SVD的算法,本文转载自之前吴军老师《数学之美》和参考文献《机器学习中的数学》汇总。————————————在自然语言处理中,最常见的两类的分类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。这两种分类问题都可用通过矩阵运算

2013-05-30 22:23:23 538

原创 折半查找-java实现

二分查找又称折半查找,它是一种效率较高的查找方法。   【二分查找要求】:1.必须采用顺序存储结构 2.必须按关键字大小有序排列。 /** * 二分查找又称折半查找,它是一种效率较高的查找方法。   【二分查找要求】:1.必须采用顺序存储结构 2.必须按关键字大小有序排列。 * @author Administrator *

2013-05-27 15:18:29 535

转载 Porter Algorithm ---------词干提取算法

在英语中,一个单词常常是另一个单词的“变种”,如:happy=>happiness,这里happy叫做happiness的词干(stem)。在信息检索系统中,我们常常做的一件事,就是在Term规范化过程中,提取词干(stemming),即除去英文单词分词变换形式的结尾。应用最为广泛的、中等复杂程度的、基于后缀剥离的词干提取算法是波特词干算法,也叫波特词干器(Porter Stemmer)。详见

2013-05-08 22:38:40 6696

原创 设计模式(JAVA)------抽象工厂模式

场景:女娲造人抽象工厂模式定义:为创建一组相关或相互依赖的对象提供一个接口,而且无需指定它们的具体类场景问题解决类图:主要涉及如下几个角色:1.人种接口2.白色人种3.黄色人种4.黑色人种5.黄色女性人种、黑色女性人种、白色女性人种6.黄色男性人种、黑色男性人种、白色男性人种7.人种生成工厂接口8.女性生成工厂

2013-04-21 15:42:33 876

转载 R树

R树在数据库等领域做出的功绩是非常显著的。它很好的解决了在高维空间搜索等问题。举个R树在现实领域中能够解决的例子吧:查找20英里以内所有的餐厅。如果没有R树你会怎么解决?一般情况下我们会把餐厅的坐标(x,y)分为两个字段存放在数据库中,一个字段记录经度,另一个字段记录纬度。这样的话我们就需要遍历所有的餐厅获取其位置信息,然后计算是否满足要求。如果一个地区有100家餐厅的话,我们就要进行100次位置

2013-04-21 13:59:29 738

原创 设计模式(JAVA)------访问者模式

场景:将公司中所有人员信息都打印汇报出来,其中假设公司有两类人员:1.普通员工2.管理层不同人员类型的信息是不同的。访问者模式:定义:封装一些作用于某种数据结构中的各元素的操作,它可以在不改变数据结构的前提下定义作用于这些元素的新的操作。包含如下几个角色:1.Visitor-抽象访问者抽象类或者接口,声明访问者可以访问哪些元素,具体到程序中就是visit方法

2013-04-20 21:31:24 779

原创 设计模式(JAVA)-------建造者模式

场景:设计一个汽车简易制造工艺流程该模块中主要包括两个部分:1.汽车制造模型2.汽车组装过程建造者模式:定义:将一个复杂对象的构建与它的标示分离,使得同样的构建过程可以创建不同的目标在建造者模式中,有如下4个角色:Produce产品类:通常是实现了模版模式(Template);Builder抽象建造者:规范产品的组件,一般由子类实现;Concre

2013-04-19 22:16:57 1218

原创 设计模式(java) ------ 中介者模式

场景:设计一个电脑采购管理模块该模块中主要包括三个部分:1. 采购管理2. 销售管理3. 存货管理需要根据以下要素来决定采购数量销售情况:销售部门反馈销售情况,畅销就多采购,滞销就不采购库存情况:库房有货,才能销售督促采购:若购买的数量大于库存数量,就需要提醒采购部门及时采购物品中介者模式定义:用一个中介对象封装一系列的对象交互,中介者使各对象不需要

2013-04-17 22:17:28 857

原创 设计模式(java) ------ 工厂模式+策略模式+门面模式

场景:设计一个交易系统中的子模块------扣款子模块扣款子模块中主要包括两部分:1.IC卡类和交易信息类其中IC卡中包括两种金额:固定金额和自由金额;交易信息类负责记录每一笔交易。2.扣款策略类扣款策略有以下两种:a. IC卡固定金额 = IC卡现有固定金额-交易金额/2    IC卡自由金额 = IC卡自由金额-交易金额/2b. 全部消费从IC卡自由金额中扣

2013-04-17 15:40:20 3344 1

原创 JVM内存管理和GC

JVM内存组成结构JVM内存结构由堆、栈、本地方法栈、方法区等部分组成,结构图如下所示: 1)堆所有通过new创建的对象的内存都在堆中分配,其大小可以通过-Xmx和-Xms来控制。堆被划分为新生代和旧生代,新生代又被进一步划分为Eden和Survivor区,最后Survivor由FromSpace和ToSpace组成,结构图如下所示:-Xms:初始堆大小

2013-04-14 13:32:37 703

转载 23种设计模式总结

创建型模式(CreationalPatters):一共有五种,常用的有三种。工厂方法(FactoryMethod):定义一个用于创建对象的接口,让子类决定实例化哪一个类。工厂方法是一个列的实例化延迟到其子类。工厂方法用一个virtual method完成创建过程。抽象工厂(AbstractFactory):提供一个创建一些类相关或相互依赖对象的接口,而无需指定它们具体的类。

2013-04-12 22:50:29 811 1

翻译 Bloom Filter-大规模数据处理利器

一 BloomFilter简介Bloom Filter是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。Bloom Filter的这种高效是有一定代价的:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(false positive)。因此,Bloom Filter不适合那些“零错误”的应用场合。而在能容忍低

2013-04-12 14:39:13 571

转载 JAVA设计模式五大原则

JAVA设计模式五大原则1、单一职责不论是在设计类,接口还是方法,单一职责都会处处体现,单一职责的定义:我们把职责定义为系统变化的原因。所有在定义类,接口,方法的时候。定义完以后再去想一想是不能多于一个的动机去改变这个类,接口,方法。如果答案是肯定的,说明定义的类,接口,方法则多于一个职责。故违背单一职责,遇到这种情况应该重新细分职责,直到不会出现多种职责的类,接口方法为止(发现职责,并把

2013-04-03 14:26:45 910

翻译 Linux安装Eclipse

下载Eclipse Classic 3.7.2.移动文件到安装目录:mv /root/Downloads/eclipse-SDK-3.7.2-linux-gtk-x86_64.tar.gz /opt解压:tar zxvf eclipse-SDK-3.7.2-linux-gtk-x86_64.tar.gz完成后能看到/opt目录下有eclipse的目录.为了以后方便使用eclipse

2013-03-31 20:30:23 700

转载 成为Java高手的25个学习目标

1.你需要精通面向对象分析与设计(OOA/OOD)、涉及模式(GOF,J2EEDP)以及综合模式.你应该了解UML,尤其是 class,object,interaction以及statediagrams.2.你需要学习Java语言的基础知识以及它的核心类库 (collections,serialization,streams,networking,?multithreading,reflect

2013-03-31 19:23:11 451

转载 K-means算法的java实现,聚类分析681个三国武将

一,k-means算法介绍:  k-means算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类

2013-03-07 23:02:54 1197

转载 基于Apache的反向代理服务器

众所周知Apache是目前最优秀的HTTP服务器。实际上它不仅能当作服务器使用,也能够被用来架设代理服务器。本文就如何使用Apache架设HTTP代理服务器进行说明。本文将基于Win32版的Apache 2.0.47进行说明。以前的Apache 1.x版配置方法稍有不同,但这里不作说明。 首先是Apache的安装。从 http://www.apache.org 上下载Apache的安装

2013-03-07 22:17:00 2961

转载 基于Map/Reduce的频繁项集挖掘

云计算是分布式计算技术的一种,其最基本的概念是透过网络将庞大的计算处理程序自动拆成无数个较小的子程序,再交由多服务崧所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。云计算具有超大规模、虚拟化、高可靠性、高可扩展性、通用性等特点,在海量数据的处理中有着重要的地位和发展空间。云计算普遍采用的编程模式是MapReduce,它由Google提出,为编写需要大规模并行处理的代码提供了简单模式L。

2013-03-07 22:13:56 5066 1

翻译 使用json-lib.jar包创建JsonObject

基于json-lib.jar包Json实例程序1.从头或者从零开始,创建一个JSONObject(Creating a JSONObject from scratch)实例1:    JSONObject jsonObject = new JSONObject();   jsonObject.element("name", "周星星");   jsonObject.elemen

2013-02-02 13:41:36 1669

转载 使用JSON进行数据传输

使用JSON进行数据传输一、选择的意义在异步应用程序中发送和接收信息时,可以选择以纯文本和XML 作为数据格式。为了更好的使用ajax,我们将学习一种有用的数据格式 JavaScript Object Notation(JSON),以及如何使用它更轻松地在应用程序中移动数据和对象。JSON是一种简单的数据交换格式,在某些方面,它的作用与XML非常类似,但比XML更为简单,JSON的语法

2013-02-02 13:39:32 583

转载 「译」JavaScript 的 MVC 模式

本文介绍了模型-视图-控制器模式在 JavaScript 中的实现。我喜欢 JavaScript,因为它是在世界上最灵活的语言之一。在 JavaScript 中,程序员可以根据自己的口味选择编程风格:面向过程或面向对象。如果你是一个重口味,JavaScript 一样可以应付自如:面向过程,面向对象,面向方面,使用 JavaScript 开发人员甚至可以使用函数式编程技术。这篇文章中,我的目

2013-01-21 22:58:55 413

转载 搜索引擎概述

目录(?)[-]搜索引擎技术之概要预览前言什么是搜索引擎网络蜘蛛中文分词系统架构排序技术图片搜索原理开源搜索引擎全文检索引擎 SphinxJava搜索引擎 LuceneC搜索引擎 CLucene搜索引擎 Nutch搜索引擎技术之概要预览前言    近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索

2013-01-18 21:13:07 1110

转载 数据分析平台解析

随着互联网、移动互联网和物联网的发展,谁也无法否认,我们已经切实地迎来了一个海量数据的时代,数据调查公司IDC预计2011年的数据总量将达到1.8万亿GB,对这些海量数据的分析已经成为一个非常重要且紧迫的需求。作为一家互联网数据分析公司,我们在海量数据的分析领域那真是被“逼上梁山”。多年来在严苛的业务需求和数据压力下,我们几乎尝试了所有可能的大数据分析方法,最终落地于Hadoop平台之上。

2013-01-13 17:05:06 876

转载 CSS颜色

css颜色代码大全:(网页设计师和平面设计师常用)现在给大家献上颜色对照码:FFFFFF#DDDDDD#AAAAAA#888888#666666#444444#000000#FFB7DD#FF88C2#FF44AA #FF0088 #C

2013-01-12 00:20:19 803 1

转载 Prismatic:用机器学习分析用户兴趣只需10秒钟

摘要:斯坦福大学和伯克利的四位年轻的计算机科学博士创立了Prismatic。他们不仅是科学家同时也是实干家,他们放弃了Hadoop等重量级框架,通过过程化语言的深度使用,简单并且高效的实现了大数据的处理,高度并发,实时等优异的特性。这篇文章主要描述的是Prismatic公司系统架构,作者是Todd Hoff,本文出自Todd对Prismatic的程序员Jason Wolfe的邮件专访。关于

2013-01-04 02:22:18 858

翻译 倒排索引技术

倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(inverted file)。设有两篇文章1和2文章1的内容为:Tom lives in Guangzhou,

2013-01-04 00:16:43 631

转载 海量数据处理算法举例

1、 海量日志数据,提取出某日访问百度次数最多的那个IP。首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的I

2012-12-31 15:21:27 475

原创 HashMap的实现原理

在很多应用中,都要用到一种动态集合结构。例如,计算机程序设计语言的编译程序需要维护一个符号表,其中元素的关键字值为任意字符串,与语言中的标示符对应。实现字典的一种有效数据结构为哈希表(hashmap)。在最坏情况下,在哈希表中,查找一个元素的时间与在链表中查找一个元素的时间相同,在最坏情况下都O(n),但在实践中,哈希技术的效率是很高的。在一些合理的假设下,在哈希表中查找一个元素的期望时间为O(1

2012-12-29 23:41:42 437

原创 Hadoop-* 自动安装脚本

#!/bin/bash#validate user or groupvalidate() { if [ 'id -u' == 0 ];then echo "must not be root!" exit 0 else echo "---------welcome to hadoop---------" fi}#hadoop installhd-dir() {

2012-12-29 23:24:23 885

转载 linux 用户及用户组管理

创建组:$sudo addgroup ccache创建用户:$sudo useradd ccache -g ccache -M创新wfz用户并创建HOME目录,指定用户组为ccache$sudo useradd wfz -g ccache -m增加已存在用户到指定组$sudo adduser $USER ccache$sudo adduser dbh ccache

2012-12-29 13:38:23 390

原创 eclipse搭建hadoop开发环境

一、安装准备1、JDK版本:jdk1.7.02、hadoop版本:hadoop-1.1.1(hadoop-1.1.1.tar.gz)3、eclipse版本:Eclipse Java EE IDE for Web Developers.  Version: Juno Service Release 14、eclipse与hadoop集成插件:hadoop-eclipse-plug

2012-12-29 01:26:14 1076

翻译 vim常用命令

2012-12-29 01:04:29 471

原创 Ext-Tree 设计与实现

在项目开发中,我们会经常用到一种数据结构—树。”树”这种数据结构名称的灵感完全来自自然界的树,在计算机中,树是倒着长的,根在上,叶子在下。下面来介绍下,在使用ExtJs进行实际项目开发过程中,怎样才能构建一颗树,其中分为静态树和动态异步树两种类型。如图所示 一、静态树 以上TreePanel提供了树形结构数据的树形UI展示。添加到TreePanel中的每个TreeNode都

2012-12-29 00:36:45 621

原创 Win7下硬盘安装Ubuntu12.04双系统

一、准备工作(在win7下操作完成) 1.从官网www.ubuntu.com上下载镜像文件,大小接近700M。最新版本是 12.042.下载并安装easybcd。3.腾出一个空盘,保持在(30G以上的空间,需要将重要的资料进行备份),点击右键格式化之后把它删除。然后右击计算机 – 管理 –磁盘管理。这里你会看到刚才格式化的空盘,然后右击它,选择压缩卷,分配格式化盘的大小,点击完成,

2012-12-29 00:35:15 2858

Linux程序设计第四版(中文) part3

Linux程序设计第四版(中文) part3

2012-12-28

Linux程序设计第四版

Linux程序设计第四版(中文)part2

2012-12-28

Linux程序设计第四版(中文)

Linux程序设计第四版(中文) part1

2012-12-28

JAVA并发编程实战

JAVA并发编程实战

2012-12-26

MongoDB 权威指南

MongoDB 权威指南

2012-12-26

Oracle white paper-Big Data

Oracle white paper-Big

2012-12-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除