Kafka源码解析(一)core.kafka.server.KafkaServer

简单讲讲kafka的broker启动相关代码。

2017-07-19 15:38:33

阅读数 1200

评论数 0

分布式爬虫架构设计

分布式爬虫架构设计最近又和爬虫干上了,有3000万个搜索关键词,1个关键词搜索结果有多个,每个结果对应一个ID,每个ID的对应的目标页面由多个请求接口返回的json组合而成。1.在架构上使用kafka分发搜索关键词,利用了kafka同一消费组只消费一次的特性。2.利用redis进行id去重。3.在...

2017-07-10 13:33:01

阅读数 2129

评论数 0

线性回归与梯度下降

线性回归与梯度下降现实生活中我们可以通过一个房子的地点、楼层、朝向等信息(在机器学习中称这些信息为feature,特征)估算一个房子的平米价格。估算价格时我们需要知道一些房子的数据,我们凭空去猜一个房子的价格得到准确结果的概率不大。这些我们事先知道的房子数据被称为训练数据。 可以看成我们脑海中有...

2017-07-09 13:46:50

阅读数 263

评论数 0

Flume

Flumeflume是一个分布式日志收集系统。flume的核心是把数据从数据源(source)收集过来,在将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正到达目的地(sink)后,flume再删除自己缓...

2017-03-22 11:22:18

阅读数 282

评论数 0

PageRank

PageRank闲来无事,整理一下算法。今天整理一下PageRank。网上搜了搜感觉这篇文章还不错 http://www.cnblogs.com/fengfenggirl/p/pagerank-introduction.html本文对这篇文章进行修改加工,加入了一些自己的思想,后面代码实现用了s...

2017-03-21 22:53:11

阅读数 276

评论数 0

余弦相似度

余弦相似度基于余弦定理计算相似度的应用很多,比如推荐系统中的协同过滤,计算文本的相似性等等。

2017-03-21 16:06:23

阅读数 1011

评论数 0

HbaseAPI

简单讲解HBase的java api

2017-03-17 22:28:37

阅读数 847

评论数 0

HBase浅谈

简单谈一谈HBase

2017-03-16 22:24:31

阅读数 248

评论数 0

kerberos工作原理

谈谈kerberos。

2017-03-08 18:01:38

阅读数 538

评论数 0

KNN算法

KNN算法

2017-03-03 17:23:19

阅读数 235

评论数 0

极验验证的滑动验证码破解

极验验证码的破解思路

2016-12-08 00:19:44

阅读数 28335

评论数 26

谈谈推荐系统(一)什么是推荐系统

推荐系统以及评估标准

2016-11-04 11:37:32

阅读数 2957

评论数 0

谈一谈信息熵

(这篇文章是我在微信公众号上发表的一篇文章) 这次博主和大家谈一谈信息熵。在大家学习数据挖掘算法中的决策树时,会知道决策树是通过信息熵来判读哪个特征是最适合做当前的根结点的。当然信息熵还可以被应用于压缩领域,通过信息熵可以知道文件的压缩下限。      那么到底什么是信息熵呢?首...

2016-10-10 16:35:15

阅读数 1700

评论数 0

HDFS浅谈

最近在做关于HBase的开发,由于HBase是基于HDFS的,所以对这方面进行了学习。 下面是总结的思维导图: 一、结构 hdfs的结构主要分三块:Client,NameNode (NN),DataNode  (DN)   Client:客户端,系统使用者,调用HDFS API操作文件;...

2016-08-16 15:49:45

阅读数 294

评论数 0

朴素贝叶斯分类

简单介绍朴素贝叶斯分类,和如何计算线性特征的概率

2016-05-17 17:20:27

阅读数 291

评论数 0

浅谈分类

简单唠唠分类算法、归一化处理、测试和训练,并附上思维导图拙作一副

2016-05-16 17:03:02

阅读数 298

评论数 0

AES加密算法实现

用java库,scala实现AES算法

2016-05-13 17:24:07

阅读数 2164

评论数 0

RC4加密算法及其scala实现

最近用到了rc4算法和base64简单写一篇关于rc4的文章。  RC4算法的特点是算法简单,运行速度快,而且密钥长度是可变的,可变范围为1-256字节(8-2048比特),在如今技术支持的前提下,当密钥长度为128比特时,用暴力法搜索密钥已经不太可行,所以可以预见RC4的密钥范围任然可以在今后...

2016-05-11 13:11:17

阅读数 1203

评论数 0

base64

http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001399413803339f4bbda5c01fc479cbea98b1387390748000 Base64是一种用...

2016-05-11 10:17:25

阅读数 234

评论数 0

协同过滤浅谈

浅谈下协同过滤,其中相似性的计算,k邻域算法,slopone算法,以及显式和隐式、userCF和itemCF的区别与局限性

2016-05-09 14:10:30

阅读数 759

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭