大数据
bertramlau
这个作者很懒,什么都没留下…
展开
-
中国信通院发布大数据白皮书2021
【摘 要】白皮书以数据要素的价值释放作为核心逻辑,重点探讨大数据政策、法律、技术、管理、流通、安全等方面的内容,并对“十四五”期间我国大数据的发展进行展望。【目 录】一、全球大数据战略布局持续深化(一)国外大数据战略稳步推进(二)我国大数据战略深入落实二、大数据法律体系建设不断完善(一)基础法律:搭建数据合规基本框架(二)部委发力:细化落实基础合规要求(三)地方立法:着力创新攻坚合规难题三、大数据技术体系发展创新变革(一)效率提升:利用云原生思想进行能力升级(二)赋能业务原创 2021-12-21 17:27:18 · 842 阅读 · 0 评论 -
Gartner发布2021年十大数据和分析技术趋势
三个层面一、加速变革利用人工智能的创新,提高可组合性,以及更敏捷和有效地整合更多不同的数据源。二、通过更有效的XOps来运作商业价值实现更好的决策,将数据和分析变成业务的一个组成部分三、一切分布化要求与数据和洞察力灵活相关,以赋予更多的人和物以权力...原创 2021-06-03 11:18:01 · 434 阅读 · 0 评论 -
数据处理相关名词
英文缩写英文全称中文释义备注CDCChange Data Capture增量迁移任务使用变更数据捕获原创 2021-05-28 13:18:02 · 451 阅读 · 0 评论 -
IAS 2019/2020 互联网架构大会资源分享
背景近期在搜集相关中台资料时发现不错的中台架构设计资源,很多网站需要收费下载,经多方搜索找到免费资源。IAS 2019 首届全国中台战略大会暨第三届互联网架构峰会链接: https://pan.baidu.com/s/1UIYu-yFpT9T9xlobNEvirg 提取码: ayig 复制这段内容后打开百度网盘手机App,操作更方便哦IAS 2020 第二届全国中台战略大会暨第四届互联网架构峰会链接: https://pan.baidu.com/s/1H4CrZSdKNQ6kMz9v2_nZpg原创 2021-02-20 09:38:48 · 366 阅读 · 4 评论 -
手动编译完Exchangeis 的exchangis-service服务无法启动
系统环境OS version:CentOS Linux release 7.7.1908JDK version:1.8.0_181已经编译好的wedatasphere-exchangis-0.5.0.RELEASE故障现象现象1:[root@master02 bin]# sh exchangis-service.sh start2021-02-08 14:56:56.336 [INFO] (52057) load environment variables2021-02-08 14:56原创 2021-02-08 15:31:38 · 1083 阅读 · 10 评论 -
hive SQL 查询报错Wrong FS
错误信息Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Unable to determine if hdfs://master01.cdh:8020/user/hive/warehouse/acccore.db/t_sy_banks is encrypted: java.lang.IllegalArgumentException: Wrong FS: hdfs://master01.cdh:8020/user/hive/wareh原创 2021-01-15 09:21:41 · 570 阅读 · 0 评论 -
linkis Invalid bound statement (not found): com.webank.wedatasphere.linkis.metadata.hive.dao.HiveMet
错误信息dss-web前端报错信息:linkis-metadata的日志信息:2021-01-11 10:33:56.139 [ERROR] [qtp180121605-70166 ] c.w.w.l.m.r.a.DataSourceRestfulApi (83) [queryDatabaseInfo] - Failed to get database(获取数据库失败): org.apache.ibatis.binding.BindingException:原创 2021-01-11 14:58:03 · 368 阅读 · 0 评论 -
DataSphereStudio 创建工作流失败
报错信息{"method":null,"status":1,"message":"operation failed(操作失败)s!the reason(原因):HttpClientResultException: errCode: 10905 ,desc: URL /api/rest_j/v1/bml/upload request failed! ResponseBody is <!DOCTYPE html PUBLIC\n\"-//W3C//DTD XHTML 1.0 Transitional/原创 2021-01-10 21:53:49 · 1445 阅读 · 1 评论 -
Hadoop 简介
原创 2020-09-07 09:25:34 · 104 阅读 · 0 评论 -
CDH flink命令行启动yarn-session报错java.lang.NoClassDefFoundError: Could not initialize class org.apache.ha
系统环境错误排查./bin/yarn-session.sh2020-07-09 11:22:01,187 INFO org.apache.flink.configuration.GlobalConfiguration - Loading configuration property: gateway-port, 02020-07-09 11:22:01,327 ERROR org.apache.flink.runtime.security.modules.HadoopModu原创 2020-07-09 13:50:59 · 4715 阅读 · 0 评论 -
CDH 6.3Unable to instantiate SparkSession with Hive support because Hive classes are not found.解决办法
系统环境CentOS 7.7.1908CDH 6.3.1问题现象执行spark-submit,具体命令如下:spark-submit --class xxx --master yarn --deploy-mode cluster --driver-memory 4g --executor-memory 2g --executor-cores 1 --queue thequeue /tmp/xxx.jarconsole输出如下:2020-06-25 17:59:56 WARN Nativ原创 2020-06-25 18:28:15 · 1572 阅读 · 0 评论 -
CDH 6.3.1 设置邮件告警功能【2020年06月】
操作步骤1.登录cloudera manager页面,进入cloudera manager service服务2.单击配置,在搜索框输入alert,检索相关配置项3.设置邮箱等相关参数这个端口折腾了很久,祝你好运????4.保存cloudera manager的设置,重启cloudera manager service。5.发送测试邮件测试邮件真相:参考资料1.https://blog.csdn.net/silentwolfyh/article/details/8656586原创 2020-06-16 15:33:56 · 845 阅读 · 0 评论 -
CDH 6.3.1 sql-client踩坑纪
系统环境CentOS 7.7.1908CDH 6.3.1排错过程[root@slave02 flink]# ./bin/sql-client.sh embedded -d conf/t.yaml -l opt/Setting HADOOP_CONF_DIR=/etc/hadoop/conf because no HADOOP_CONF_DIR was set.SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".SLF4原创 2020-06-12 17:34:33 · 1600 阅读 · 0 评论 -
Canal-adapter1.1.14 最新版本安装的过程中出现的NullPointerException异常
系统环境CentOS Linux release 7.7.1908Canal 1.1.14问题现象2020-06-08 13:39:48.019 [Thread-2] ERROR c.a.o.canal.adapter.launcher.loader.CanalAdapterService - ## something goes wrong when starting up the canal client adapters:java.lang.NullPointerException: nul原创 2020-06-08 16:37:23 · 2452 阅读 · 0 评论 -
Hue 创建Hbase 表 出现Api 错误:HTTPConnectionPool(host= port=9090): Read timed out.
系统环境CDH 6.3.1Hue 4.4.0错误现象Hue 创建hbase 表,遇到如下错误:hue server log:[06/Jun/2020 13:54:46 +0800] access INFO 192.168.8.69 hue - "POST /hbase/install_examples HTTP/1.1" returned in 120103ms[06/Jun/2020 13:54:46 +0800] thrift_util INFO Thrif原创 2020-06-06 15:34:24 · 1870 阅读 · 0 评论 -
CDH 6.3.1 hue 4.4 Api 错误:500 Server Error: Server Error for url: http://x.x.x.x:9090
系统环境CDH 6.3.1Hue 4.4.0问题现象Hue中无法连接hbase表问题排查hue server 日志:http://xxxx:8888/hue/logs[05/Jun/2020 19:32:19 -0700] resource DEBUG GET //user/hbase Got response in 3ms: {"FileStatus":{"accessTime":0,"blockSize":0,"childrenNum":0,"fileId":22967,"原创 2020-06-06 11:28:29 · 2151 阅读 · 0 评论 -
Run Hive on spark tasks with Hue, always running more than 30 min
环境CDH 6.3.1Hive 2.1.1(执行引擎Spark)HueSpark 2.4.0问题Hue执行hive sql:理论上14.005s已经执行完了,结果已经正常返回,但是hue上的job 持续了30m才结束,详情如下:解决思路查找各种资料,也调整各种timeout, 就是不work; 因为每次都是规律的30分钟结束,最终找到hive配置文件中的一个配置:调整此值为300s后,按照预想的5分钟执行完成了:总结思考hive.spark.session.timeout 这原创 2020-05-30 23:19:25 · 469 阅读 · 0 评论 -
Hive on Spark Error while processing statement: FAILED: Execution Error, return code 30041
系统环境具体问题解决思路参考资料1.https://stackoom.com/question/1nnFt/%E8%9C%82%E5%B7%A2%E9%98%B5%E5%88%972.https://stackoverflow.com/questions/46953218/hive-on-spark-cdh-5-7-failed-to-create-spark-client3.https://forum.knime.com/t/remote-spark-driver/20899/2...原创 2020-05-26 11:32:45 · 3163 阅读 · 0 评论 -
Dolphin scheduler Druid 连接失败问题解决
Dolphin scheduler Druid 连接失败问题解决问题现象搭建了dolphinscheduler分布式服务,整体web系统除调度任务外运行正常,无法配置工作流,发现master日志中显示,通过druid连接mysql失败,搜索各种资料未果dolphinscheduler-master.2020-05-20_11.0.log// An highlighted block### The error may exist in org/apache/dolphinscheduler/dao/原创 2020-05-21 10:38:08 · 2111 阅读 · 0 评论 -
HBase 相关资源汇总
官方网站: http://hbase.apache.org/ 个人博客:http://hbasefly.com/ 网易杭研院 范欣欣https://blog.bcmeng.com/ 编程小梦 康凯森http://blog.csdn.net/odailidonghttp://blog.csdn.net/lipeng_bigdatahttp://leonlibraries.github...原创 2018-01-11 14:59:14 · 206 阅读 · 0 评论 -
logstash 指定kafka 从最开始消费
input { kafka { bootstrap_servers => "localhost:9092" group_id => "consumer-group-01" topics => ["app_log"] consumer_threads => 5 decorate_events => false原创 2018-01-18 18:50:36 · 6729 阅读 · 0 评论 -
spring boot 连接Phoenix 报错SYSTEM:CATALOG is found but client
错误详情:18:19:14.527 [taskScheduler-1] ERROR o.s.s.s.TaskUtils$LoggingErrorHandler - Unexpected error occurred in scheduled task.org.springframework.jdbc.CannotGetJdbcConnectionException: Could not ge...原创 2018-02-26 18:42:07 · 3973 阅读 · 1 评论 -
Kafka Eagle 安装与使用
1. 官方文档https://ke.smartloli.org/2. 安装2.1 压缩包安装2.1.1 下载压缩包http://download.smartloli.org/2.1.2 解压缩tar -zxvf kafka-eagle-${version}-bin.tar.gz2.1.3 配置Kafka Eagle profilevi...原创 2018-02-08 16:17:19 · 4573 阅读 · 0 评论 -
使用python连接phoenix的几种方式
使用python连接phoenix的几种方式使用python连接phoenix的几种方式phoenixdbjaydebeapi主要有以下几个python package可以用来连接phoenix,其余的待补充:jaydebeapiphoenixdbphoenixdb需要先启动queryserver(python queryserver.p...原创 2018-03-14 17:10:09 · 10023 阅读 · 15 评论 -
测试 impala with TPC-H
因项目需要,需要测试impala查询性能,经过一番搜索最准选定基于TPC-H工具来测试。目录 硬软件环境TPC-H测试工具准备准备测试数据生成器tpch-dbgen下载 tpc-h-impala测试脚本运行TPC-H测试用例硬软件环境服务器 10台阿里云 ecs.d1ne.4xlarge 16vcore 64GB ...原创 2018-04-05 13:45:50 · 1173 阅读 · 0 评论 -
开启yarn node labels
背景: 最近新扩容一批nodemanager服务器,由于没有申请额外的磁盘,只有默认的40GB空间,当执行较大的mapreduce任务时app_cache/file_cache容易将磁盘写满,因此需要让ResourceManager 将mapreduce任务调度到有额外磁盘的nodemanager基本步骤://增加下列配置到yarn-site.xml原创 2018-01-23 14:56:44 · 1067 阅读 · 0 评论