大数据管理
sparkexpert
大数据挖掘技术(人工智能)的爱好者
展开
-
MongoDB分片集群启动过程中Failed to connect to 127.0.0.1:27017错误解决办法
(1)进行MongoDB分片集群部署过后,进入MongoDB的目录下,输入bin/mongo -port:30000,居然弹出错误:MongoDB shell version: 3.0.7connecting to: test2015-10-30T10:34:27.215+0800 W NETWORK Failed to connect to 127.0.0.1:27017, rea原创 2015-10-30 10:44:01 · 21456 阅读 · 1 评论 -
Ubuntu环境下Redis的安装与JAVA连接测试
最近由于想测试一下内存数据库的性能,于是找了KV类中最普遍的Redis进行测试。首先需要安装一下,将安装过程在此记录一下。1.下载最新版本代Redis (http://download.redis.io/releases/)2.1 下载下来的是压缩包,解压得到文件包redis-3.0,62.2 进入解压之后的目录,进行编译sudo make原创 2016-01-07 22:49:44 · 1360 阅读 · 0 评论 -
spark访问Redis并进行操作
Redis是一种高性能的内存数据库,其应用场合非常广泛,在一些实时性要求比较高的场景中,以Redis作为架构来实现的是比较多的。Redis提供了好几种数据结构,如Set, List, Hash等。可以适应不同的场合要求。但是也发现Redis存在一个问题,其没有表格的概念,而是以字典(键空间)的方式来管理的,这与传统的SQL方式是不大像的。为了实现对Redis的高原创 2016-01-07 22:58:47 · 13743 阅读 · 3 评论 -
Spark Hive在Eclipse代码中直接编译问题
利用Eclipse进行Spark开发过程中,特别是针对Hive开发时,经常会碰到这样一个问题,就是无法找到metastore。而一旦找不到的时候,hive会自动创建一个临时的本地的metastore,其提示INFO信息如下:15/12/24 20:46:02 INFO HiveContext: Initializing execution hive, version 1.2.115/12/原创 2015-12-24 20:43:40 · 5517 阅读 · 2 评论 -
Ubuntu环境下Neo4j图数据库的安装与测试
neo4j(http://neo4j.com/),号称为The World's Leading Graph Database它是一个高性能的,NOSQL图形数据库,它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎,但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎,该引擎具有成熟原创 2016-01-13 10:21:03 · 2885 阅读 · 0 评论 -
spark sql hive批量导入文本文件
在很多情况下,会需要将批量生成(如按天生成的记录)导入到HIVE中。针对这种应用场景,进行实验。首先需要进行文件目录的遍历,借助SCALA强大的函数式编程能力,利用ARRAY中的MAP函数进行操作即可。如函数如下:def LoadIntoHive(sc:HiveContext,dir:String):Unit= { var cdrDi原创 2016-03-03 16:29:11 · 4118 阅读 · 0 评论 -
基于redis的手机归属地高效查询
手机归属地查询,是一种常见的应用。手机号也有一定的命名规则,网上相关介绍有许多的。如:手机,1973年由摩托罗拉公司的马丁·库帕发明。经过30余年的发展,已成为人们生活中不可缺少的通讯工具。手机号码(MDN)是电话管理部门为手机设定的号码。它采取E.164编码方式;存储在HLR和VLR中,在MAP接口上传送。MDN号码的结构为:CC + MAC + H0 H1 H2 H3 + ABCD原创 2016-02-18 17:49:21 · 1389 阅读 · 0 评论 -
Spark RDD(DataFrame) 写入到HIVE的代码实现
在实际工作中,经常会遇到这样的场景,想将计算得到的结果存储起来,而在Spark中,正常计算结果就是RDD。而将RDD要实现注入到HIVE表中,是需要进行转化的。关键的步骤,是将RDD转化为一个SchemaRDD,正常实现方式是定义一个case class.然后,关键转化代码就两行。data.toDF().registerTempTable("tabl原创 2016-03-23 17:04:33 · 22801 阅读 · 1 评论 -
Cassandra 3.7.0集群在ubuntu上的安装
最近想着测试各种NOSQL数据库的性能,于是把cassandra也装一下试验一下性能。Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集GoogleBigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身Facebook于2008将 Cassandra 开源,此后,由于Cassandra良好的原创 2016-06-23 17:12:22 · 1863 阅读 · 0 评论 -
Hive ORC文件格式存储与测试(Malformed ORC file解决)
Hive本身支持好多种数据格式,其中OrcFile是当前压缩比最大的一个。因此进行该方面的实践。采用建表过程中,直接:stored as orc,就可以指定。然而用传统文本文件导入的方式,再进行查询测试,如select count(*) from table XX. 则会出现:Failed with exception java.io.IOException:java.原创 2015-12-06 10:39:52 · 9257 阅读 · 2 评论 -
Hive timestamp与date互转的实验
将date存成timestamp有个比较好的好处,是比较的效率肯定会高很多,而且也是目前HIVE能够支持的方式。幸好HIVE当中支持了对timestamp与DATETIME的时间转化操作,主要由两个函数组成:from_unixtime:将一个timestamp值转化为datetime的字符类型。unix_timestamp: 将datetime的字符类型转化为timesta原创 2015-12-22 20:29:46 · 25318 阅读 · 0 评论 -
C# 随机生成手机号码(中国地区)
做大数据挖掘,其中通话记录是很重要的一种实时大数据。为了做实验,往往需要生成随机手机号。为了在单台电脑环境下快速生成随机手机号的相关记录,采用C#,主要后续可以直接利用它的多核并行策略。做的代码如下: private string[] telStarts = "134,135,136,137,138,139,150,151,152,157,158,15原创 2015-12-04 17:16:27 · 10868 阅读 · 0 评论 -
spark sql 无法访问 hive metastore问题解决
Spark SQL on Hive是Shark的一个分支,是HIVE执行分析引擎的一个重要利器。在Spark 1.5.1的时候,可以非常简单地在spark shell中进行Hive的访问,然而到了Spark 1.5.2时,发现进入Spark Shell的时候,总是出现报错,其原因总是无法访问hive的metastore,从而无法进行各种操作,相当的烦人的。看了说明,说是要配置hive th原创 2015-12-11 10:40:04 · 14688 阅读 · 1 评论 -
从Oracle批量导出CSV导入到HIVE中(含去掉引号)
以往很多系统经常用的是oracle数据库,在大数据环境下,许多应用都是去IOE的,那么其中老旧数据的迁移或者测试就是其中一块。然而利用sqoop进行数据迁移,在很多场景下并不适合,比如说某些读写分离的场景下,要求原始的oracle数据库与现有的大数据环境是物理隔离的,因此需要原始的数据导出工作。其中数据导出采用CSV有利于直接从oracle迁移到hive等大数据存储环境中。原创 2015-12-10 15:32:25 · 3689 阅读 · 0 评论 -
从CSV文件导入Hive出现中文乱码问题解决
关于HIVE中文乱码问题的解决办法,网上有很多帖子,然而很多都是基于LINUX终端显示字符的修改,其实上对于一些条件下的HIVE中文乱码问题是无法解决的,如从CSV文件导入到HIVE中出现的中文乱码问题。大家都知道,HIVE原生的字符编码是采用UTF-8方式的,这是支持中文的。然而在从ORACLE导出CSV文件,注入到HIVE表中的时候,就发现输入时出现中文乱码。按照HIVE中文乱码的原创 2015-12-12 19:29:33 · 14964 阅读 · 0 评论 -
基于spark的网络爬虫实现
爬虫是获取网络大数据的重要手段,爬虫是一种非常成熟的技术了,然而想着在spark环境下测试一下效果.还是非常简单的,利用JavaSparkContext来构建,就可以采用原来java中的网页获取那一套来实现.首先给定几个初始种子,生成一个JavaRDD对象即可 JavaRDD rdd = sc.parallelize("urllist");原创 2015-12-28 22:00:46 · 7846 阅读 · 1 评论 -
ZooKeeper集群安装与Hbase全分布式安装
Apache ZooKeeper 是一个面向分布式应用程序的高性能协调服务器。要实现Hbase全分布式安装,需要安装ZooKeeper,当然后面kafka也需要安装这个东西。一、安装zookeeper集群1.下载zk安装包,官网可下载,本次使用版本zookeeper-3.4.52.解压,将下载的安装包解压到soft文件夹统一管理。 tar -zxvf 文件名 -C原创 2015-12-29 14:38:37 · 733 阅读 · 0 评论 -
Spark访问HBase的Eclipse代码实现
Hbase是一个列式数据库,从其本质上来看,可以当做是一个数据源,而Spark本身又可以进行Hbase的连接,访问数据并进行查询。为了跟之前的程序对接,可以采用spark +hbase来实现数据的迁移和处理分析。因此小做了个实验测试一下。(1) 建立scala project,导入hbase下的相关lib,当然这里面所需要的lib不多。只需要几个hbase开头的jar包即可原创 2015-12-29 14:48:37 · 1787 阅读 · 0 评论 -
HIVE中数据更新(update)操作的实现
数据更新是一种常见的操作,然后数据仓库的概念一般要求的是数据是集成、稳定的。HIVE作为一种分布式环境下以HDFS为支撑的数据仓库,它同样更多的要求数据是不可变的。然而现实很多任务中,往往需要对数据进行更新操作,经查,Hive自0.11版本之后就提供了更新操作。于是想着试验一下,看看HIVE更新的操作和性能。按照网上办法进行设置. hive.support.concur原创 2015-12-30 09:19:34 · 96821 阅读 · 1 评论 -
Spark实现HIVE统计结果导入到HBase操作
由于HIVE更新的机制极其不适应SPARK环境,于是利用HBase来执行HIVE中某些统计结果的更新。首先要做的是实现Spark + Hive访问,得到RDD,再将这个RDD导入到HBase中操作。然而网上关于这一块目前资料还真很少。但是其原理总体上来说是非常简单的。步骤主要是两步:(1)开启hive连接器,实现spark + hive的访问,得到dataframe对象。原创 2015-12-31 11:34:54 · 4725 阅读 · 1 评论 -
python elasticsearch 批量写入测试
elasticsearch 是一个高效的近实时的数据库。最近要重新进行老版本的ES 数据迁移到新版本。由于以前都是采用java来进行连接的,不过这回为了方便,找了个python 连接包来进行处理。 本博客主要测试python elasticsearch 进行批量写入的测试步骤一:安装python的elasticsearch包用:pip install elasticsearch...原创 2018-11-06 16:55:12 · 2832 阅读 · 0 评论