唐九-CSDN博客

原创 Ambari部署HDP出现的问题总结

此问题是在安装第二步，注册主机时遇到的error:100AE081:elliptic curve routines:EC_GROUP_new_by_curve_name:unknown groupERROR 2015-02-06 20:10:20,023 NetUtil.py:58 - SSLError: Failed to connect. Please check openssl

2016-10-14 17:07:45 3352

原创 Ambari2.1安装HDP2.3

最近才接触Hortonworks Data Platform(HDP),安装时遇到挺多坑，以下是本人成功安装的具体步骤，分享一下首先介绍一下Ambari和HDP，官网上http://hortonworks.com/products/data-center/hdp/很详细，这里我就大致说一下。Ambari 是 Apache Software Foundation 中的一个项目，是一个

2016-10-14 16:53:32 1050

原创 GeoIP的详解 --Python版

GeoIP GeoIP数据库（MaxMind公司）可以根据来访者的IP，定位他的经纬度，国家/地区，省市，甚至街道等位置信息本人用Python写GeoIP的API，就以Python版为例详细介绍一下GeoIP的用法安装pygeoip 1.下载pygeoip安装包解压安装（也可以通过命令行 pip install pygeoip）：下载安装包 ht

2016-01-22 10:02:12 10788

原创 Hadoop之hive详解

什么是Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制.本质是将SQL转换为MapReduce程序.为什么要使用Hive操作接口采用类SQL语法，提供快速开发的能力避免了去写MapReduce，减少开发人员的学习成本

2016-01-19 16:44:04 705

原创 Linux常用命令

本篇是本人操作Linux系统时常用到的一些命令，望对第一次使用Linux的朋友有帮助Linux常用命令1.usermod 修改用户usermod -G root hadoop2.userdel 删除用户userdel test1 userdel -r test2(可以完全删除)3.chown 将指定文件的拥有者改为指定的用

2016-01-19 16:07:05 517

原创 Hadoop之HDFS介绍

之前在文章中提到过Hadoop的核心由HDFS ,MapReduce以及yarn组成Hadoop是一个由Apache基金会所开发的分布式系统基础架构，该项目的创建者Doug Cutting。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储Hadoop实现了一个分布式文件系统（Hadoop Distributed File System

2016-01-18 11:44:22 1028

原创 Hadoop之Hbase详解

Hbase(Hadoop Database)是一种高可靠性，高性能，面向列，可伸缩的分布式存储系统。行键：每行都有唯一的行键，行键没有数据类型，它内部被认为是一个字节数组。列簇：数据在行中被组织成列簇，每行有相同的列簇，但是在行之间，相同的列簇不需要有相同的列修饰符。在引擎中，HBase将列簇存储在它自己的数据文件中，所以，它们需要事先被定义，此外，改变

2016-01-18 11:24:27 765

原创 Elasticsearch介绍，单机安装,python 写Elasticsearch API

ElasticSearch是一个基于Lucene构建的开源，分布式，RESTful搜索引擎。设计用于云计算中，能够达到实时搜索，稳定，可靠，快速，安装使用方便。支持通过HTTP使用JSON进行数据索引。单机环境单机版的elasticsearch运行很简单，linux下直接 bin/elasticsearch就运行了，windows运行bin/elasticsearch.ba

2016-01-14 17:02:20 2477

原创 Hadoop安装部署

Hadoop安装部署Hadoop安装部署方式：本地模式，伪分布模式，集群模式修改Hadoop的配置文件本地模式： hadoop-env.sh --- JAVA_HOME /usr/java/jdk 伪分布模式： hadoop-env.sh

2016-01-08 16:10:58 520

原创 Python写mongodb mapreduce实例

MapReduce在执行时先指定一个Map(映射）函数，把输入对映射成一组新的对，经过一定处理后交给 Reduce，Reduce对相同key下的所有value处理后再输出对作为最终的结果。指令原型db.runCommand( { mapreduce : 字符串，集合名, map : 函数 reduce : 函数 [, query :

2016-01-08 14:24:41 2536

原创 MondoDB介绍 Python与MongoDB用法,安装PyMongo

MongoDB 将几个月的成果总结成一篇文章，总结了一些大神相关MongoDB的资料和本人相关技术的应用案例，经验，希望可以帮到你能够更好的了解MogoDB,废话不多说，下面开始简要介绍mongodb MongoDB是一个基于分布式文件存储的数据库。 MongoDB 是一个跨平台的，面向文档的数据库，提供高性能，高可用性和可扩展性方便,是一个介于关系数据库和非关系数据库

2015-12-11 16:50:25 9389

原创 Hadoop介绍

提到Hadoop,我们会想到big data，而所谓的大数据就是指海量的数据，大数据特点有四个层面：第一: 数据体量巨大。从TB级别，跃升到PB级别；第二: 数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三：处理速度快，1秒定律，可从各种类型的数据中快速获得高价值的信息，这一点也是和传统的数据挖掘技术有着本质的不同。第四: 只要合理利用数据并对其进行正确、准确的分析，

2015-10-21 10:40:59 715

T_ells的博客