BigData
kongxx
这个作者很懒,什么都没留下…
展开
-
HBase客户端API-过滤器
在使用HBase的API查询数据的时候,我们经常需要设置一些过滤条件来查询数据,这个时候我们就需要使用 HBase API 的各种 Filter 来实现这一功能。在 HBase API 中使用过滤器需要创建一个 Filter 实例,然后使用Scan.setFilter()或者Get.setFilter()来使用 Filter,如下:Table table = connection.ge原创 2018-02-01 08:07:39 · 662 阅读 · 0 评论 -
Presto连接MySQL
准备准备两台机器,机器名为 bd1 和 bd2,,并且在这两个节点上安装 hadoop,hive,并且准备一个mysql数据库。bd1 - coordinator节点bd2 - worker节点安装 presto serverwget -c https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.211/p...原创 2018-10-25 21:17:58 · 6584 阅读 · 0 评论 -
Presto连接Hive
接前一篇文章,这里只说怎样连接Hive。配置 Hive Connectoretc/catalog/hive.propertiesconnector.name=hive-hadoop2hive.metastore.uri=thrift://<hive_metastore_ip>:9083hive.config.resources=/opt/presto-server-0.2...原创 2018-10-26 08:20:06 · 8889 阅读 · 0 评论 -
编译Kettle的PDI DB Dialog模块失败
问题描述这两天在编译 kettle 8.2.0.0 的时候突然开始报错[ERROR] Failed to execute goal on project kettle-dbdialog: Could not resolve dependencies for project pentaho-kettle:kettle-dbdialog:jar:8.2.0.0-311: Could not fin...原创 2018-11-12 12:58:02 · 2582 阅读 · 0 评论 -
Ambari注册节点时报错:EOF occurred in violation of protocol (_ssl.c:579)
问题原因Ambari在注册节点的时候,ambari-agent报错EOF occurred in violation of protocol (_ssl.c:579)解决办法修改 /etc/ambari-agent/conf/ambari-agent.ini 文件,在 [security] 配置部分添加[security]...force_https_protocol=PROTOC...原创 2018-12-24 17:33:06 · 2629 阅读 · 1 评论 -
使用Sqoop从Postgresql中导入数据到Hive中
这里假定已经准备好了现成的Hadoop,Hive,Hbase,Zookeeper和一个postgresql数据库。下载安装从 http://mirror.bit.edu.cn/apache/sqoop/ 地址下载 sqoop 安装包,这里我使用的是1.4.7版本。wget -c http://mirror.bit.edu.cn/apache/sqoop/1.4.7/sqoop-1.4.7.b...原创 2019-01-10 21:34:58 · 4153 阅读 · 0 评论 -
使用Sqoop从Postgresql中导入数据到HBase中
接前面的文章 “使用Sqoop从Postgresql中导入数据到Hive中”,今天看看怎样从 Postgresql 入数据到 HBase 中。这里有一点需要注意的是 Sqoop 1.4.7 目前不支持 HBase 2.x,所以准备了一个 hbase 1.4.9 的环境来做测试。配置进入 sqoop 的 conf 目录,修改 sqoop-env.sh 文件,如下:#Set path to w...原创 2019-01-17 20:44:56 · 813 阅读 · 1 评论 -
使用phoenix查询hbase
今天需要从的 hbase 使用 sql 来查询数据,于是想到了使用 phoenix 工具,在自己的环境里大概试了一下,一下子就通了,就这么神奇。下载安装首先从 apache 下载 phoenix 包,这里因为我的hbase hbase-1.4.9 版,所以我下载的对应的版本 apache-phoenix-4.14.1-HBase-1.4-bin.tar.gz下载后解压之 apache-pho...原创 2019-02-27 22:59:55 · 4798 阅读 · 0 评论 -
python使用phoenixdb操作hbase
python使用phoenixdb操作hbase接前一篇:使用phoenix查询hbase今天看看怎样在 python 中使用 phoenixdb 来操作 hbase安装 phoenixdb 库pip install phoenixdb例子首先启动 queryserver 服务cd apache-phoenix-4.14.1-HBase-1.4-bin/bin./queryser...原创 2019-02-27 23:03:09 · 3529 阅读 · 0 评论 -
Superset安装出错 cannot import name _maybe_box_datetimelike from pandas.core.common
问题描述今天试着在python3.7.2上安装最新的superset(0.28.1),在创建管理员用户的时候报如下错误:$ fabmanager create-admin --app superset...Was unable to import superset Error: cannot import name '_maybe_box_datetimelike' from 'panda...原创 2019-04-03 22:45:45 · 3027 阅读 · 0 评论 -
Superset安装出错 sqlalchemy.exc.InvalidRequestError: Can't determine which FROM clause to join from, the
问题描述今天试着在python3.7.2上安装最新的superset(0.28.1),在初始化数据库的时候报如下错误:$ superset db upgrade...Traceback (most recent call last): File "/home/jhadmin/.pyenv/versions/myenv-3.7.2/bin/superset", line 15, in &...原创 2019-04-03 22:50:15 · 3567 阅读 · 4 评论 -
从零开始构建Flink开发项目-Scala版
今天要做一个Flink的测试,因此需要创建一个简单的Flink项目,于是找到了下面这种方式来创建一个Flink启动项目。通过运行下面的命令来创建一个项目curl https://flink.apache.org/q/quickstart-scala.sh | bash也可以根据 quickstart-scala.sh 文件中的内容,使用maven命令来生成自己的项目,比如:mvn arc...原创 2019-05-13 08:41:05 · 2649 阅读 · 0 评论 -
Kettle 7.1 连接HBase数据表
设置Hadoop环境在Tools -> Hadoop Distribution 中选择 “HortonWorks HDP 2.5.x”。复制 hbase-site.xml 文件从hbase集群中复制 hbase-site.xml 文件到 kettle 安装目录下的 “plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25”...原创 2018-10-10 17:53:53 · 5481 阅读 · 0 评论 -
Kettle 7.1 连接Hadoop集群
设置Hadoop环境在Tools -> Hadoop Distribution 中选择 “HortonWorks HDP 2.5.x”。复制core-site.xml文件复制 Hadoop 环境下的的 core-site.xml 文件到 kettle 安装目录下的 “plugins/pentaho-big-data-plugin/hadoop-configurations/hdp25”...原创 2018-10-10 17:51:41 · 2868 阅读 · 1 评论 -
Hortonworks中修改Hive使用postgresql数据库
首先停止Hive服务从Ambari管理界面上停止Hive服务修改Hive配置在Hive -> Configs -> Advanced中,将数据库改为使用已存在的postgresql数据库,然后修改数据库用户,密码和数据库名称。创建用户和数据库使用postgres用户连接postgresql数据库> psql -U postgrespostgres=# CREATE ...原创 2018-10-10 08:41:52 · 843 阅读 · 0 评论 -
HBase客户端API-分页过滤器
前一篇博客说了一下 HBase 的一些过滤器,今天看看 HBase 的分页过滤器。在 HBase 中分页过滤是通过 PageFilter 来实现的,在创建这个参数的时候需要设置一个pageSize参数,通过这个参数来控制每页返回的行数,并且在每次查询时需要指定本次查询的起始行。这里有一点需要注意,HBase中行键的排序是按字典顺序排列的,因此返回的结果也是按此顺序排列。下面看一下分页过原创 2018-02-02 07:47:12 · 1343 阅读 · 0 评论 -
HBase客户端API-过滤器列表
前面两篇文章说了怎样使用单个Filter来过滤数据,但是很多情况下我们需要做一下组合过滤,比如有逻辑与和逻辑或的查询,此时我们可以使用FilterList来实现了。FilterList也是实现了Filter接口,因此我们可以通过多个过滤器组合来实现某些效果。看下面的例子,我们创建了两个filter,第一个是过滤 username=user_0,第二个是过滤 password=passwor原创 2018-02-03 11:41:03 · 532 阅读 · 0 评论 -
HBase入门-安装
HBase是建立在Hadoop文件系统之上的分布式面向列的数据库,它是横向扩展的。它利用了Hadoop的文件系统(HDFS)提供的容错能力。HBase提供对数据的随机实时读/写访问,可以直接HBase存储HDFS数据。准备安装JDK1.8+下载 hbase-2.0.0-beta-1-bin.tar.gz 包,并解压到 /apps/目录下。修改 conf/hbase-env.s原创 2018-01-27 15:25:26 · 665 阅读 · 1 评论 -
HBase客户端API-表管理
上一篇博客说了怎样搭建HBase环境,今天说说怎样使用 HBase 的客户端 API 来操作 HBase 中的数据。创建工程首先创建一个 Maven 工程,然后添加hbase客户端api的依赖项,如下:dependency> groupId>org.apache.hbasegroupId> artifactId>hbase-clientartifactId>原创 2018-01-28 11:09:46 · 2105 阅读 · 0 评论 -
HBase客户端API-表操作
上一篇博客说了使用 HBase 的客户端 API 来操作管理 HBase 中的表,今天我们看看怎样通过 API 来操作表中的数据。介绍在 HBase 中对数据表中的数据的操做我们一般是通过 Table, Put, Get, Delete,Scan,Result等几个类来实现。Table 是表对象,对应数据库中的一张表,我们可以在表上执行添加,修改,删除和查询操作。Put 主要是原创 2018-01-29 09:13:25 · 468 阅读 · 0 评论 -
HBase客户端API-Batch操作
上一篇博客说了使用 HBase 的客户端 API 来操作操作 HBase 表中记录,今天我们看看怎样通过 API 来批量操作表中的数据。安装上一篇博客中的方法在 HBase 中如果更新(添加/修改/删除)记录,是按行一条一条更新的,这种方法在处理大量更新操作时,性能比较差,还好在 HBase 中提供了以 Batch 方式来批量更新数据表的方法。下面就看看怎样通过 Table.batch() 方原创 2018-01-30 09:19:14 · 3356 阅读 · 0 评论 -
Hive入门
介绍Hive 是一个基于 Hadoop 的数据仓库工具,它可以将结构化数据文件映射成一张表,然后通过类似 SQL 的查询语句来执行查询。这些查询语句在Hive中被称作HQL,这些 HQL 会被翻译成 MapReduce 作业来执行。Hive 把表和字段转换成 HDFS 中的文件夹和文件,并将这些元数据保持在关系型数据库中,如 derby 或 mysql。Hive 查询的数据存储在HDF...原创 2018-03-01 07:25:39 · 431 阅读 · 0 评论 -
Hadoop3-伪分布式模式安装
今天无意间看到Hadoop3去年年底就release了,今天就准备装个环境看看。安装配置首先从下面的地址下载安装包http://hadoop.apache.org/releases.html这里我下载的是hadoop-3.0.0.tar.gz包,解压安装。$ tar zxvf hadoop-3.0.0.tar.gz$ cd hadoop-3.0.0/编辑etc...原创 2018-02-23 07:56:11 · 2251 阅读 · 1 评论 -
Hive配置元数据库为PostgreSQL
前一篇文章说了怎样搭建 Hive 环境,但是 Hive 使用的是默认 Derby 数据库作为元数据库,今天说说怎样把 Hive 的元数据库从默认的 Derby 改成 PostgreSQL 数据库。安装 PostgreSQL因为这里是侧重 Hive 的配置,所以安装和配置 PostgreSQL 的步骤就省略了。配置 Hive 使用 PostgreSQL编辑 ${HIVE_HO...原创 2018-03-02 07:23:59 · 4099 阅读 · 0 评论 -
Hadoop3-分布式模式安装
接前一篇博客,这次做安装一个真正的分布式集群环境。准备这里准备三台机器bd1,bd2,bd3来组个hadoop集群,其中bd1作为namenode,bd1,bd2,bd3作为datanode配置这三台机器之间可以免密码 SSH 登录,参考我以前的博客。配置修改下面几个配置文件etc/hadoop/core-site.xml<configurati...原创 2018-02-24 10:08:36 · 855 阅读 · 0 评论 -
Hive通过JDBC连接HiveServer
修改 hadoop 配置首先需要修改hadoop的配置文件etc/hadoop/core-site.xml,添加如下配置项,其中 为连接用户,根据具体用户替换。<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type="text/xsl" href="configuration.xsl"?>&a原创 2018-03-05 09:20:40 · 1145 阅读 · 0 评论 -
HBase权限控制
修改 hbase-site.xml 文件<property> <name>hbase.superuser</name> <value>hbase</value></property><property> <name>hbase.coprocessor.region.classes<...原创 2019-09-23 12:56:39 · 630 阅读 · 0 评论