大数据
love others as self
love others as self! ----愿美梦成真!
展开
-
R数据清理与转换
数据清理与转换1缺失值得处理#查看哪些地方是数据是缺失的> which(is.na(a),arr.ind=TRUE)#删除空缺的数据> a> which(is.na(a),arr.ind=TRUE)# 发现已经没有空缺的数据了 row col which(x,arr.ind = FALSE,.....)which是用来寻找逻辑值为真的值所原创 2016-05-01 15:45:23 · 9029 阅读 · 0 评论 -
实战大数据读书笔记
首先说下对这本书的感觉,虽然这貌似是第一本讲述大数据项目案列(基于微博的股票市场预测系统,技术内容的海量视频检索系统,基于HDFSd的云文件系统)的书籍,但是书上面的代码很少,图书馆和网上都没有源码可供下载,甚至电子书都还要买。。。。可能就是因为刚出来吧 再说下HBase的系统架构 ![这里写图片描述](http://img.blog.csdn.net/20160506093443453原创 2016-05-06 09:50:53 · 865 阅读 · 0 评论 -
数据质量管理--数据抽取和清洗
web数据集成技术可以从web上自动获取数据,但是获取的信息存在着大量的脏数据,比如滥用缩写词,惯用语,数据输入错误,重复记录,丢失值,拼写变化,不同的计量单位。这些数据是没有意义的,根本就不可能为以后的数据挖掘决策分析提供任何支持。数据清洗主要是提高数据的可用性,目前,数据清洗主要应用于三个领域: 1 数据仓库(DW) 2数据库中的知识发现(KDD) 3数据质量管理(TDQM) 我在公司原创 2016-05-06 11:23:37 · 13157 阅读 · 0 评论 -
恐怖的大数据
某比萨店的电话铃响了,客服人员拿起电话。客服:XXX比萨店。您好,请问有什么需要我为您服务?顾客:你好,我想要一份……客服:先生,烦请先把您的会员卡号告诉我。顾客:16846146*。客服:陈先生,您好!您是住在泉州路一号12楼1205室,您家电话是2646,您公司电话是4666,您的手机是1391234**。请问您想用哪一个电话付费?顾客:你为什么转载 2017-01-18 16:26:23 · 376 阅读 · 0 评论 -
Dremel和Hadoop
Dremel 不是用来代替MapReduce,而是和更好的结合,hadoop的Hive,Pig无法提供及时的查询,而dremel的快速查询技术可以给Hadoop提供有力的补充Dermel的开源实现是Drill原创 2016-05-09 13:20:55 · 835 阅读 · 0 评论 -
jmap和jstack使用
先jps -ml 再sudo -u hive /usr/java/latest/bin/jstack 19661(此为进程号) > /tmp/jstack.txt原创 2017-04-17 18:15:08 · 21385 阅读 · 0 评论 -
Freesshd步骤详解
原创 2017-07-13 10:46:19 · 3950 阅读 · 0 评论