大数据
phantom66
这货很懒
展开
-
数据挖掘知识框架
本文详细介绍数据挖掘知识框架,主要从基础、统计、编程、机器学习、文本挖掘、自然语言处理、可视化、大数据、数据获取、数据清理、数据转换、工具箱等几个方面介绍数据挖掘工程师所需要具备的知识。原创 2015-05-26 15:49:58 · 3916 阅读 · 0 评论 -
redis总结
redis的缓存处理当将redis作为缓存服务器时, 需要处理过期缓存问题. LRU是redis唯一支持的缓存处理方式. 对于缓存方面的设置包括两个参数, 一个是最大缓存数量, 另一个是缓存策略.最大缓存数量参数名为, “maxmemory”, 在配置文件”redis.conf”中设置. 当这个参数设置为0时, 表示内存无限制. 但是对于32位操作系统, 最大内存使用为3GB, 当超过这个数原创 2016-04-29 13:21:53 · 5245 阅读 · 0 评论 -
数据归一化的方法总结
数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上,常见的数据归一化的方法有:min-max标准化log函数转换atan函数转换z-score标准化z-sc原创 2016-04-15 16:13:22 · 9793 阅读 · 0 评论 -
推荐系统常用实验方法和主要测量指标
说明本文介绍评测一个推荐系统常用的实验方法和主要测量指标. 在<<推荐系统 技术,评估及高效算法>>第八章有介绍.评测推荐效果的实验方法离线实验往往是从日志系统中取得用户的行为数据,然后将数据集分成训练数据和测试数据,比如80%的训练数据和20%的测试数据(还可以交叉验证),然后在训练数据集上训练用户的兴趣模型,在测试集上进行测试。 优点:只需要一个数据集即可,不需要实际的推荐系统(实际的也不可能直原创 2015-12-20 14:58:55 · 2223 阅读 · 0 评论 -
scipy中的包及其作用
scipy有多个子包组成子包名描述cluster聚类算法constants物理和数学上的一些常量fftpack快速傅立叶变化integrate集成和常微分方程的求解interpolate插值和平滑样条函数io输入和输出linalg线性代数ndimage多维图片处理odr正交距离回归optimize优化与根查找signal信号处理sparse稀疏矩阵与相关处理spatial空间原创 2015-12-20 14:54:41 · 4064 阅读 · 0 评论 -
spark的一些介绍
一、Spark是什么1、与Hadoop的关系如今Hadoop已经不能狭义地称它为软件了,Hadoop广泛的说可以是一套完整的生态系统,可以包括HDFS、Map-Reduce、HBASE、HIVE等等。。而Spark是一个计算框架,注意,是计算框架 其可以运行在Hadoop之上,绝大部分情况下是基于HDFS说代替Hadoop其实是代替Hadoop中的Map-Reduce,用来解决Map-Reduce原创 2015-12-20 14:50:21 · 748 阅读 · 0 评论 -
linux下jdk安装与配置
说明本文介绍jdk的安装, 虽然网上有很多介绍的文章, 本文还是再重新写一下jdk在linux下的安装过程.准备有一台装有linux的计算机. 在oracle网站上下载jdk的rpm包. 使用ssh将rpm包传输到那台计算机上, 命令是:scp ./jdk.rpm /server/path/to/put/安装安装之前先给安装文件赋予执行的权限, 命令如下:sudo chmod +x jdk.r原创 2015-12-20 14:47:58 · 1167 阅读 · 0 评论 -
hadoop伪分布的搭建与测试编码
说明本文介绍hadoop伪分布的搭建和配置, 并用于本地测试.准备拥有一台装有linux的计算机 这台计算机装有oracle jdk, 并且配置好了jdk 这台电脑安装了ssh, 并且配置好了ssh. 在apache基金会网站上下载hadoop压缩包, 并存放在这台计算机上.安装与配置解压hadoop压缩包, 因为hadoop压缩包使用的tar+gzip, 所以可以直接使用下面命令进行解压:t原创 2015-12-20 14:47:04 · 677 阅读 · 0 评论 -
hadoop集群搭建与测试编码
说明本文介绍hadoop小集群的搭建.准备十台装有linux的计算机. 这些计算机都装有jdk, 并且准确配置jdk. 这些计算机都装了ssh, 并且都能实现相互之间无密码访问.配置记录各台计算机的ip, 并将其中的一台作为master机, 其他计算机一次标号为slave1, slave2, slave3…slave9. 将ip对应标号的信息添加到/etc/hosts文件中, 格式为:ip1原创 2015-12-20 14:46:15 · 1547 阅读 · 0 评论 -
hive的安装与简单配置
介绍本文简单介绍安装hive之前的准备, 安装hive时的配置和hive的简单使用, 作为一篇入门级的文章吧.安装前的准备linux的安装hive是运行在hadoop平台上的应用, 因此需要先安装hadoop平台. 虽然, hadoop平台提供windows版本, 但是由于这个版本没有经过严格的测试, 而且这个windows版本是运行在mingw32上面的, mingw32经常会出现一些莫名奇妙原创 2015-12-20 14:45:21 · 5801 阅读 · 0 评论 -
scrapy源码阅读
scrapy是使用python编写的高性能蜘蛛框架. scrapinghub公司提供了基于云的蜘蛛平台, 也是开源项目scrapy后台支持的公司. scrapy0.2x版本升级到1.x版本时, 将原有的scrapy部署服务拆分为独立的版本scrapyd. 这也是0.24版本和1.x版本不同之处.架构scrapy的架构图如图1所示. 数据流的方向如下:Spiders(蜘蛛)Sche原创 2015-12-20 14:31:19 · 3715 阅读 · 0 评论 -
从零到在虚拟机中搭建hadoop伪分布平台
在虚拟机中搭建hadoop伪集群原创 2015-04-24 22:06:58 · 2162 阅读 · 0 评论 -
apache kafka总结
apache kafka总结本文将从多个方面对apache kafka进行总结.简介apache kafka是一个分布式消息队列. 这个消息队列在很多场景中被应用, 这一点在kafka apache项目的网站中就有介绍. 相对于其他消息队列而言(比如rabbitMQ等), 在大量数据传输方面性能较好. 当然也有它的不足, 暂时没有足够的中文文档是一方面, 另一方面, kafka在用户制定方面也原创 2016-04-23 14:57:07 · 4867 阅读 · 0 评论