大数据
可乐司机
这个作者很懒,什么都没留下…
展开
-
Hadoop安装
推荐一个Hadoop安装介绍比较完整的网址:厦门大学数据库实验室:http://dblab.xmu.edu.cn/blog/1258-2/原创 2017-02-28 20:08:12 · 581 阅读 · 0 评论 -
Linux 上安装Eclipse并配置Hadoop
前提条件:已经安装Hadoop1. 下载Eclipse安装包(我这里下载的是eclipse-java-neon-2-linux-gtk-x86_64.tar.gz)2. 加压 tar zxvf eclipse-java-neon-2-linux-gtk-x86_64.tar.gz3. 进入到eclipse的目录,使用./eclipse安装4. 下载插件hadoop-ecl原创 2017-03-08 18:49:59 · 1948 阅读 · 1 评论 -
HBase
Hadoop实验——HBase的安装和实验原创 2017-03-22 16:47:41 · 266 阅读 · 0 评论 -
大数据处理技术——基础介绍
1. 5个V(1) Volume 高容量(2)Velocity 高速度(3)Variety 多样性(4)Veracity 真实性(5)Value 价值性2. 工作(1)存储(2)管理(3)分析 (这里主要讲这个)3.大数据分析通过对大量数据进行分析,挖掘发现其中的模式和模型。(1)Valid:对新数据有效(2)Useful:能在一定程度上方便对...原创 2019-02-19 11:11:36 · 685 阅读 · 0 评论 -
数据挖掘——数据
1. 数据属性数据对象是通过属性来描述的。(1)名词型属性:各个属性值之间没有距离关系。a. 二元型属性:只有两个取值的名词型属性;两个取值同等重要的是对称型(如男和女),不同等重要的为不对称(如阳性和阴性)。b. 顺序型属性:取值有排序效果,如小中大。(2)数值型属性:数值型属性一般都要归一化,以减少量纲带来的影响(3)离散性属性 VS 连续型属性2. 数据基本统计...原创 2019-02-28 21:17:25 · 311 阅读 · 0 评论 -
数据挖掘——数据预处理
1.多维度衡量数据质量 正确性、完整性、一致性、时效性、可信度、可解释性2. 数据清洗补全缺失数据:专家补充完整、自动填充(UNKNOWN、均值、众数、根据其他属性取样本均值等平滑噪声数据(随机错误、技术限制等):装箱、回归、人机结合、聚类识别并移除异常数据识别移除异常数据:利用属性元数据(如身份证号码的限制等)解决数据不一致性、缺省值3. 数据集成合并多个/种...原创 2019-02-28 22:11:06 · 323 阅读 · 0 评论 -
数据挖掘——频繁模式、关联规则
1. 频繁模式概念在数据集中经常出现(出现的频率不小于minsup,minsup是人为设定的,如为50%)的模式(可以是一个子序列、子结构、子集等),可以应用于销售分析、网页日志分析、DNA序列分析。2. 关联规则概念当X出现时,Y也会出现。X->Y 通常有两个数据,一个是XY一起出现的频率,另一个是当X出现时Y出现的条件概率。3. 频繁模式算法(1)Apriori算法:...原创 2019-03-10 17:44:13 · 1201 阅读 · 0 评论