redis总结

redis的缓存处理当将redis作为缓存服务器时, 需要处理过期缓存问题. LRU是redis唯一支持的缓存处理方式. 对于缓存方面的设置包括两个参数, 一个是最大缓存数量, 另一个是缓存策略.最大缓存数量参数名为, “maxmemory”, 在配置文件”redis.conf”中设置. 当...

2016-04-29 13:21:53

阅读数:4938

评论数:0

apache kafka总结

apache kafka总结本文将从多个方面对apache kafka进行总结.简介apache kafka是一个分布式消息队列. 这个消息队列在很多场景中被应用, 这一点在kafka apache项目的网站中就有介绍. 相对于其他消息队列而言(比如rabbitMQ等), 在大量数据传输方面性...

2016-04-23 14:57:07

阅读数:4344

评论数:0

数据归一化的方法总结

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据...

2016-04-15 16:13:22

阅读数:3082

评论数:0

推荐系统常用实验方法和主要测量指标

说明本文介绍评测一个推荐系统常用的实验方法和主要测量指标. 在<<推荐系统 技术,评估及高效算法>>第八章有介绍.评测推荐效果的实验方法离线实验往往是从日志系统中取得用户的行为数据,然后将数据集分成训练数据和测试数据,比如80%的训练数据和20%的测试数据(还可以交叉验证)...

2015-12-20 14:58:55

阅读数:1337

评论数:0

scipy中的包及其作用

scipy有多个子包组成子包名描述 cluster聚类算法 constants物理和数学上的一些常量 fftpack快速傅立叶变化 integrate集成和常微分方程的求解 interpolate插值和平滑样条函数 io输入和输出 linalg线性代数 ndimage多维图片处理 odr正交距离回...

2015-12-20 14:54:41

阅读数:1354

评论数:0

spark的一些介绍

一、Spark是什么1、与Hadoop的关系如今Hadoop已经不能狭义地称它为软件了,Hadoop广泛的说可以是一套完整的生态系统,可以包括HDFS、Map-Reduce、HBASE、HIVE等等。。而Spark是一个计算框架,注意,是计算框架 其可以运行在Hadoop之上,绝大部分情况下是基...

2015-12-20 14:50:21

阅读数:577

评论数:0

linux下jdk安装与配置

说明本文介绍jdk的安装, 虽然网上有很多介绍的文章, 本文还是再重新写一下jdk在linux下的安装过程.准备有一台装有linux的计算机. 在oracle网站上下载jdk的rpm包. 使用ssh将rpm包传输到那台计算机上, 命令是:scp ./jdk.rpm /server/path/t...

2015-12-20 14:47:58

阅读数:1003

评论数:0

hadoop伪分布的搭建与测试编码

说明本文介绍hadoop伪分布的搭建和配置, 并用于本地测试.准备拥有一台装有linux的计算机 这台计算机装有oracle jdk, 并且配置好了jdk 这台电脑安装了ssh, 并且配置好了ssh. 在apache基金会网站上下载hadoop压缩包, 并存放在这台计算机上.安装与配置解压h...

2015-12-20 14:47:04

阅读数:516

评论数:0

hadoop集群搭建与测试编码

说明本文介绍hadoop小集群的搭建.准备十台装有linux的计算机. 这些计算机都装有jdk, 并且准确配置jdk. 这些计算机都装了ssh, 并且都能实现相互之间无密码访问.配置记录各台计算机的ip, 并将其中的一台作为master机, 其他计算机一次标号为slave1, slave2, ...

2015-12-20 14:46:15

阅读数:1258

评论数:0

hive的安装与简单配置

介绍本文简单介绍安装hive之前的准备, 安装hive时的配置和hive的简单使用, 作为一篇入门级的文章吧.安装前的准备linux的安装hive是运行在hadoop平台上的应用, 因此需要先安装hadoop平台. 虽然, hadoop平台提供windows版本, 但是由于这个版本没有经过严格的测...

2015-12-20 14:45:21

阅读数:4467

评论数:0

scrapy源码阅读

scrapy是使用python编写的高性能蜘蛛框架. scrapinghub公司提供了基于云的蜘蛛平台, 也是开源项目scrapy后台支持的公司. scrapy0.2x版本升级到1.x版本时, 将原有的scrapy部署服务拆分为独立的版本scrapyd. 这也是0.24版本和1.x版本不同之...

2015-12-20 14:31:19

阅读数:2536

评论数:0

数据挖掘知识框架

本文详细介绍数据挖掘知识框架,主要从基础、统计、编程、机器学习、文本挖掘、自然语言处理、可视化、大数据、数据获取、数据清理、数据转换、工具箱等几个方面介绍数据挖掘工程师所需要具备的知识。

2015-05-26 15:49:58

阅读数:2261

评论数:0

从零到在虚拟机中搭建hadoop伪分布平台

在虚拟机中搭建hadoop伪集群

2015-04-24 22:06:58

阅读数:1693

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭