BigData
czliuming
喜欢阅读和分享计算机相关的各种技术
展开
-
机器学习实战——机器学习基础
何为机器学习 机器学习就是把无序的数据转换成有用的信息。 关键术语 属性(特征):从各个方面描述一个事物,这些方面称作属性或者叫特征 训练集:用于训练机器学习算法的数据样本集合 目标变量:机器学习的结果 主要任务 机器学习主要分为监督学习和无监督学习,监督学习必须知道即将预测的标称变量是什么,如分类和回归。无监督学习数据没有类别信息,也不会给定目标值,主要包括聚类,密度估计等。 监督学习:原创 2016-03-31 13:41:32 · 707 阅读 · 0 评论 -
Hadoop集群搭建及wordcount测试
1. hadoop三种安装模式 单机模式 无需运行任何守护进程(daemon),所有程序都在单个JVM上执行。由于在本机模式下测试和调试MapReduce程序较为方便,因此,这种模式适宜用在开发阶段。 伪分布式模式 Hadoop守护进程运行在本地机器上,模拟一个小规模的集群。 完全分布式模式 Hadoop运行在一个真实的集群中,本文以hadoop-2.6.3为例讲解此模式配置。 2. hado原创 2016-05-05 23:00:45 · 5948 阅读 · 0 评论 -
Hadoop常见问题汇总-转载
An internal error occurred during: “Map/Reducelocation status updater”.java.lang.NullPointerException,如图所示 解决:尝试向HDFS中上传一个文件,然后再新建目录。转载 2016-05-05 22:48:13 · 938 阅读 · 0 评论 -
Hadoop安装与配置
1. java安装与配置 在oracle官网下载最新的Linux版本的jdk,然后利用ssh将jdk压缩包传输到待安装Linux系统的指定目录下(详见博客《windows利用ssh向Ubuntu传文件》),进入Linux系统切换到jdk压缩包所在目录,执行解压缩命令,将jdk安装在指定目录。命令如下: tar -zxvf jdk1.8.0_77 -C /usr/java安装完成后需要配置原创 2016-04-10 17:23:06 · 956 阅读 · 0 评论 -
机器学习实战--决策树
决策树概述 决策树利用分层的概念将一个复杂的决策问题分解为多个简单的判断问题,最后逐级得到最大支持度的决策结果。 决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据 缺点:可能产生过度匹配问题 适用数据类型:数值型和标称型 决策树算法原理 决策树概念比较简单,用一个男女相亲的例子来描述决策树原理如下: 示例:使用决策树实现分类器 1原创 2016-05-03 17:32:27 · 8140 阅读 · 0 评论 -
机器学习实战--基于概率论的分类方法:朴素贝叶斯
朴素贝叶斯概述 朴素贝叶斯算法就是利用我们在概率论中学习的条件概率公式来处理一些分类问题。 朴素贝叶斯 优点:在数据较少的情况下仍然有效,可以处理多类别问题 缺点:对于输入数据的准备方式较为敏感 适用数据类型:标称型数据 朴素贝叶斯算法原理 概率论中有一个大名鼎鼎的概率公式,贝叶斯公式: 推到过程如下: 举一个例子来阐述贝叶斯公式,据统计百分之八十的女孩会留长原创 2016-04-29 15:18:47 · 9008 阅读 · 0 评论 -
Hadoop与Spark整合
搭建Hadoop集群 搭建Hadoop集群请参考博文《Hadoop集群搭建及wordcount测试》,在此不再赘述。 安装Scala 在scala官网下载合适的版本,将scala安装包拷贝到linux安装目录,执行解压缩命令进行安装: sudo tar -zxvf scala-2.11.7.tgz -C /usr/opt/spark解压缩完成后,进入etc目录,修改profile,追加以下内容e原创 2016-05-24 16:48:47 · 3689 阅读 · 0 评论 -
机器学习实战——k-近邻算法(KNN)
k-近邻算法(KNN)概述 简单的说,k-近邻算法采用测量不同特征值之间的距离方法进行分类,它是一个分类算法。 k-近邻算法 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 k-近邻算法原理原创 2016-04-25 17:46:21 · 1142 阅读 · 0 评论 -
数据挖掘-文本特征提取方法研究
一、 课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数据是结转载 2016-04-25 17:33:29 · 41558 阅读 · 0 评论 -
大数据日知录--数据分片与路由
概念 目前主流的大数据存储与计算系统通常采用横向扩展(Scale Out)的方式支持系统可扩展性,即通过增加机器数目来获得水平扩展能力。对于待存储处理的海量数据,需要通过数据分片(Shard/partition)来将数据进行切分并分配到各个机器中去,数据分片后如何找到某条记录的存储位置就成为必然要解决的问题,这一般被称为数据路由(Data Routing)。数据分片和数据路由的抽象模型如下原创 2016-05-23 16:38:57 · 2843 阅读 · 1 评论