大数据
bigdataf
这个作者很懒,什么都没留下…
展开
-
大数据 Guava冲突问题
程序使用的guava版本和hadoop hbase大数据之类的包冲突,总是报NoSuchMethod和ClassNoDef之类的错误解决方法:将guava-22.0单独打成jar包,并改名,再重新放回源程序基于maven-shade-plugin,guava单独打成jar包,修改包路径,并加入源程序的maven本地仓库1.guava单独打成jar包的pom文件<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://原创 2020-10-10 10:51:44 · 1721 阅读 · 0 评论 -
kylin 开源可视化工具 superset使用
superset + kylin1.superset 和kylin 连接问题 使用kylinpy pip install kylinpy在kylin.py 增加解决下拉列表问题@compact_response() def list_schemas(self): table_schemas = [t['table_SCHEM'] for t in sel...原创 2018-03-31 14:21:32 · 1997 阅读 · 0 评论 -
hive1.2.1 分区表 增加列显示为null 问题
1.问题 hive中增加字段 发现之后之后添加的数据正常,之前数据无法读取 问题修复: 查找hive元数据的分区字段边 SDS MySQL [hive]&amp;gt; SELECT * FROM SDS WHERE location LIKE '%video_test%' ; +--------+-------+----------------------------------------...原创 2018-04-26 13:54:20 · 350 阅读 · 0 评论 -
idea中git的使用
1.将项目添加到git中原创 2018-05-24 10:32:11 · 5057 阅读 · 0 评论 -
kylin 新版 dashbard 功能开启
1.在 kylin.properties 中将一下配置开启kylin.server.query-metrics2-enabled=truekylin.metrics.reporter-query-enabled=truekylin.metrics.reporter-job-enabled=truekylin.metrics.monitor-enabled=truekylin.web...原创 2018-07-17 20:18:35 · 1249 阅读 · 0 评论 -
cassandra 笔记
数据迁移 第一次使用cassandra,笔记一下,业务迁移,有两列数据没有迁移到新平台,特此实验,研究一下查看dbDESCRIBE KEYSPACE查看表DESCRIBE TABLES查看表信息DESCRIBE tablename创建测试表CREATE TABLE test.cl_test ( id int PRIMARY KEY, ...原创 2018-07-12 17:22:07 · 836 阅读 · 0 评论 -
python 操作hive pyhs2
使用kerberos时import pyhs2class HiveClient: # 初始化 def __init__(self, db_host, user, password, database, port=10000, authMechanism="PLAIN", configuration=None): self.conn = pyhs2.conne...原创 2018-07-25 18:17:37 · 1929 阅读 · 0 评论 -
python 消费 kafka 数据
1.安装python模块pip install --user kafka-python==1.4.3 如果报错压缩相关的错尝试安装下面的依赖yum install snappy-develyum install lz4-develpip install python-snappypip install lz42.生产者#!/usr/bin/env python...原创 2018-09-11 16:53:58 · 4179 阅读 · 0 评论 -
Java 快速排序
Java 快速排序https://arxiv.org/pdf/1511.01138.pdf原创 2018-09-18 13:17:05 · 152 阅读 · 0 评论 -
hive如何使用json格式的数据
查看当前hive支持的json函数show functions like &quot;*json*&quot;;OKget_json_objectjson_tupleTime taken: 0.006 seconds, Fetched: 2 row(s) get_json_objectdescribe function get_json_object; OK get_json_object...原创 2018-09-26 14:12:09 · 2480 阅读 · 0 评论 -
hbase-2.1.0 源码阅读
1.Hmaster启动用了这么久的hbase,今天开始着手hbase方面的源码阅读2.1.0版本刚发布不久,是Hbase 2.x系列的第二次版本。旨在提高 HBase 的稳定性和可靠性,主要更新内容如下:基于 Procedure v2 的复制对等修改串行复制最小 Hadoop 版本已更改为 2.7.1成功完成从 1.4.3 到 2.1.0 的滚动升级,这表明可以从 1.x 滚动升级到 ...原创 2018-10-11 15:50:59 · 1446 阅读 · 0 评论 -
hbase-2.1.0 源码阅读-2
接着上篇 我们看看在hmaster//hbase 继承自HRegionServerpublic class HMaster extends HRegionServer implements MasterServices //HRegionServer继承自 HasThreadpublic class HRegionServer extends HasThread implements ...原创 2018-10-15 19:57:31 · 389 阅读 · 0 评论 -
hive 使用技巧
1.抽样从一个表中随机抽样得到一个不重复的数据样本,随机取样SELECT * FROM &amp;amp;amp;lt;Table_Name&amp;amp;amp;gt; DISTRIBUTE BY RAND() SORT BY RAND() LIMIT ;这是使用RAND()函数和LIMIT关键字来获取样例数据。使用DISTRIBUTE和SORT关键字来保证数据是随机分散到mapper和reducer的。ORDER BY ...原创 2018-10-10 12:06:45 · 1242 阅读 · 0 评论 -
hbase Filter使用
背景昨天同事反馈hbase查询返回无数据了,查了下返回RowTooBigEXcepiton,初步看是value过大导致?以为是有异常数据写入,我们hbase设计上一个列族,然后对应每个时间分片会通过动态列会记录时间分片类的数据指标,每天查询的时候通过rowkey +时间窗户, get返回对应的指标,分析初步分析,有数据异常,某个value值过大,因为默认value值的大小是1G...原创 2018-11-01 19:03:47 · 666 阅读 · 0 评论 -
flink 学习笔记资料
1.https://blog.csdn.net/yanghua_kobe/article/category/61705732.http://www.54tianzhisheng.cn/tags/Flink/3.https://blog.csdn.net/liguohuabigdata/article/category/72790204.http://wuchong.me/5.https:/...原创 2019-01-02 10:40:39 · 489 阅读 · 0 评论 -
opentsdb加kerberos认证
1.编辑启动脚本 cat start_tsdb.shOPENTSDB_HOME=/data/opentsdbJVMARGS="${JVMARGS} -Djava.security.auth.login.config=${OPENTSDB_HOME}/jaas.conf -Dzookeeper.sasl.client=false" ./tsdb tsd --config=${OPENTSDB_...原创 2019-02-15 11:42:37 · 1216 阅读 · 0 评论 -
压力测试工具
1.siegea.安装$ wget http://download.joedog.org/siege/siege-latest.tar.gz$ tar -xvf siege-latest.tar.gz$ cd siege-4.0.4/ $ ./configure$ make && make installb.使用$ siege -c10(10个线程) -t10s...原创 2019-02-20 11:47:32 · 860 阅读 · 1 评论 -
ES学习
#创建 索引为blog 类型为article的文档curl -H 'Content-Type:application/json' -XPUT http://localhost:9200/blog/article/1 -d '{ "id": "1", "title": "New version of Elasticsearch released!", "con...原创 2019-08-31 20:41:11 · 246 阅读 · 0 评论 -
spark hive hbase 结合
spark hive hbase 结合业务需求,需要整合需要读取hive数据导入hbase中,一下是环境配置流程以及中间遇到的问题1.spark读hive需要copy hive-site和hdfs-site 等配置文件到项目资源包下object hivesql { case class Record(key: Int, value: String) def ma原创 2018-01-18 14:04:41 · 1310 阅读 · 0 评论 -
spark thriftserver
1.hive mr 太慢了,基于次 适配 spark-sql的功能 ,于是乎,想通过spar启动thriftserver来解决问题1:17/12/29 16:28:59 WARN thrift.ThriftCLIService: Error opening session:java.lang.RuntimeException: Could not load shims in class org.a原创 2017-12-29 17:16:14 · 2002 阅读 · 0 评论 -
centos7 mysql 安装
1 下载mysql yum源wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm2 安装yum源rpm -ivh mysql-community-release-el7-5.noarch.rpm3 安装mysqlyum install mysql-server4 启动mysqlsystemctl start原创 2017-09-14 19:48:40 · 277 阅读 · 0 评论 -
通过yarn 查看完整的hql语句
流程: 点击Tracking URL—->左侧job下的configuration—->在右侧Search 搜string(hive.query.string)对应的value就是现在执行或者已经完成的hive程序对应的sql语句原创 2017-09-18 20:27:43 · 2178 阅读 · 1 评论 -
mysql 数据备份与还原
基于mysqldump导出数据 命令格式 mysqldump -u用户名 -p 数据库名 > 数据库名.sql 范例: mysqldump -uroot -p hue > hue.sql 备份数据库hue ,生成hue.sql文件数据导入 mysql -uroot -p hue < hue.sql原创 2017-09-12 17:18:48 · 252 阅读 · 0 评论 -
hive中文乱码问题
hive针对元数据库metastore中的表,分区,视图的编码设置因为我们知道 metastore 支持数据库级别,表级别的字符集是 latin1,那么我们只需要把相应注释的地方的字符集由 latin1 改成 utf-8,就可以了。用到注释的就三个地方,表、分区、视图。如下修改分为两个步骤:(1)进入数据库 Metastore 中执行以下 5 条 SQL 语句 ①修改表字段注解和表注解 alter原创 2017-09-11 11:28:09 · 807 阅读 · 1 评论 -
grafana docker 安装使用
1.配置yum源 vim /etc/yum.repos.d/docker.repo 添加 [dockerrepo]name=Docker Repositorybaseurl=https://yum.dockerproject.org/repo/main/centos/7 enabled=1 gpgcheck=1 gpgkey=https://yum.dockerproject.org/gpg2原创 2017-09-21 17:50:11 · 4519 阅读 · 1 评论 -
Python Windows pyhs2下模块安装
错误代码:C:\Python27\Scripts>pip2.7.exe install pyhs2Collecting pyhs2 Using cached pyhs2-0.6.0.tar.gzCollecting sasl (from pyhs2) Using cached sasl-0.2.1.tar.gzCollecting thrift (from pyhs2) Usin原创 2017-11-08 15:28:02 · 2351 阅读 · 0 评论 -
kylin 优化
简介 kylin sql的执行会在所使用的维度列在cube中选择最合适的cuboid,以最大程度节省查询时间,一个Cuboid对应着一组分析的维度,并保存了度量的聚合结果。Cube就是所有Cuboid的集合,每个节点代表一个Cuboid,每一种维度的组合,将度量做聚合运算,然后将运算的结果保存为一个物化视图,称为Cuboid。所有维度组合的Cuboid作为一个整体,被称为Cube。可以理解为,一原创 2017-11-08 17:20:46 · 661 阅读 · 0 评论 -
linux top
top h / ? 显示帮助提示 Window 1:Def: Cumulative mode Off. System: Delay 3.0 secs; Secure mode Off. Z,B Global: 'Z' change color mappings; 'B' disable/enable bold 'Z'修改颜色配置;'B':关闭/开启粗体 l,t,m原创 2017-11-13 11:30:37 · 186 阅读 · 0 评论 -
LINUX 占用内存
查找最占内存的进程 ps -aux | sort -k4nr 杀死循环脚本对应的进程 ps -ef |grep scriptname |awk ‘{print $2}’ |xargs kill -9原创 2017-11-13 11:34:32 · 289 阅读 · 2 评论 -
hadoop 启用cgroup
hdp https://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.3.0/bk_yarn_resource_mgt/content/ch_cgroups.htmlhadoop http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/NodeManagerCgroups.h原创 2017-11-13 15:20:48 · 845 阅读 · 0 评论 -
flume kafka
1.查看消费情况kafka-run-class kafka.tools.ConsumerOffsetChecker --group groupname --topic topicname --zookeeper ip1:2181,ip2:2181,ip3:2181 消费情况说明:Group Topic Pid Offse原创 2017-11-22 14:29:01 · 558 阅读 · 1 评论 -
大数据上的sql
presto sql 1、命令行 查看帮助 ./presto --server ip:port --catalog hive --schema default --help2、例子./presto --server ip:port --catalog hive --schema default -f 1.sql ./presto --server ip:port --catalog原创 2017-11-30 11:23:12 · 598 阅读 · 0 评论 -
数据hive常见问题
1.mysql 导入时问题转码,避免乱码 mysql源有各种字符集#字符转换CONVERT ( CONVERT (fieldname USING BINARY) USING gbk ) as fieldname#防止换行trim(replace(replace(replace(`fieldname`,"\\r\\n",""),"\\r",""),"\\n","")) as `field原创 2017-11-24 19:54:11 · 387 阅读 · 0 评论 -
hadoop 源码编译2.7.4
1。下载源码 查看BUILDING.txt,依据说明要求 进行编译yum -y install svn ncurses-devel gcc*yum -y install lzo-devel zlib-devel autoconf automake libtool cmake openssl-develwget https://sourceforge.net/projects/findbugs/fi原创 2017-12-04 18:15:56 · 245 阅读 · 0 评论 -
tensorflow 学习 demo(-)
#!/usr/bin/env pythonimport tensorflow as tf#numpy 是一个科学计算工具包,这里通过numpy工具包生成模拟数据集from numpy.random import RandomState#定义数据batch的大小batch_size=8#定义神经网络参数w1= tf.Variable(tf.random_normal(([2,3] ),stdd原创 2017-12-07 12:28:13 · 544 阅读 · 0 评论 -
docker coentos7 tensorflow
cpu的设备识别检测yum install pciutils lspci | grep NVIDIA00:03.0 3D controller: NVIDIA Corporation Device 1b38 (rev a1)安装显卡驱动wget http://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-原创 2017-11-27 18:30:58 · 719 阅读 · 1 评论 -
mysql Specified key was too long; max key length is 767 bytes
mysql建表错误 cursor.execute(statement, parameters) File "/home/wifi/supersetpy35/lib/python3.5/site-packages/MySQLdb/cursors.py", line 250, in execute self.errorhandler(self, exc, value) File "/原创 2017-12-28 14:03:44 · 26193 阅读 · 0 评论 -
hue 安装
1.yum 安装环境依赖 yum install apache-maven ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libxml2-devel libxslt-devel make mysql mysql-devel openldap-devel python-devel sqlite-devel原创 2017-09-13 09:39:44 · 273 阅读 · 1 评论