大数据
文章平均质量分 70
飞锡2024
算法工程师,paddle/cv girl
展开
-
CentOS7 修改Docker容器和镜像默认存储位置
CentOS7 修改Docker容器和镜像默认存储位置原创 2022-06-02 15:41:28 · 1432 阅读 · 0 评论 -
大数据组件spark hadoop hive简单介绍
spark单机启动 spark-shell集群启动/usr/local/spark-2.4.5-bin-hadoop2.7/sbin/start-all.sh提交任务1.打包python环境:whereis python# /usr/local/python3/zip -r py_env.zip py_env2.spark提交参考:pyspark打包依赖包&使用python虚拟环境hadoop介绍Hadoop是一个能够对大量数据进行分布式处理的软件框架。特性:高可原创 2022-08-11 09:50:41 · 444 阅读 · 0 评论 -
pyflink连接iceberg 实践
pyflink连接iceberg 实践原创 2022-07-21 17:27:02 · 1009 阅读 · 0 评论 -
sparksql 与flinksql 建表 与 连表记录
sparksql flinksql建表原创 2022-07-21 17:19:33 · 1019 阅读 · 0 评论 -
pyspark更改列顺序存入iceberg数据库
spark更改列顺序存入数据库原创 2022-07-18 17:04:00 · 649 阅读 · 0 评论 -
pyspark 写入数据到iceberg
pyspark 写入数据到iceberg原创 2022-06-14 14:02:04 · 1152 阅读 · 1 评论 -
启动service network restart失败报错Failed to activate service ‘org.bluez‘:解决
参考:https://ubuntuforums.org/showthread.php?t=2336447查看状态systemctl status network.service查看日志journalctl -xe解决systemctl stop bluetooth.servicesystemctl disable bluetooth.service重启网卡service network restart原创 2022-04-03 17:19:13 · 2307 阅读 · 0 评论 -
sublime scala,java,python配置
版本:https://scala-lang.org/download/all.html2.11.12下载地址:https://scala-lang.org/download/2.11.12.html安装:https://blog.csdn.net/superman_xxx/article/details/51535110配置文件{ "cmd": ["scala", "$file"], "windows":{ "cmd": ["scala.bat", "$file"原创 2022-03-16 15:38:45 · 172 阅读 · 0 评论 -
大数据技术 学习笔记
内容来自:大数据技术视频课程目标课程模块第一讲 大数据概念及计算简介要求:对本课程教学目标、内容、方式做一个全面概要介绍内容:了解数据科学的发展背景和要解决的问题,介绍大数据概念和再现代服务行业的应用情况。重点是大数据的概念和数据科学的发展史第二讲 大数据计算体系与模式要求:介绍大数据存储系统和数据处理平台内容:让学生了解主要的大数据存储系统,包括数据的清洗、建模、分布式文件存储、NoSQL数据库、数据访问接口。向学生介绍目前数据工程界采用的主要数据处理平台,通过实例介绍各类数据分析算原创 2021-08-28 14:30:51 · 779 阅读 · 0 评论 -
pyspark计算词频
通过计算词语的词频,实现一个字典,字典键为名字,值为出现的次数,词频归一化 当前词语的出现次数/出现最多的词语次数-出现最少的词语次数,current_value/(max_value - min_value),循环每个词语的字段,最后构建字典{名字第一个字符:[(名字,对应频率),(),…]},类似{“病”:[[“病毒感染”,0.1],[“病毒性上呼吸道感染”,0.001],]计算词频关键代码:lines = sc.textFile(file_path)result = lines.flatMap(原创 2021-06-28 17:14:24 · 534 阅读 · 0 评论 -
kafka简单介绍
kafka概述定义Kafka 是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。消息队列传统消息队列的应用场景:同步处理和异步处理使用消息队列的好处1)解耦允许独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。2)可恢复性系统的一部分组件失效时,不会影响到整个系统。消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。3)缓冲有助于控制和优化数据流经过系统的速度,解原创 2021-06-08 10:57:53 · 188 阅读 · 0 评论 -
分布式数据库HBase复习
概述一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要用来存储非结构化和半结构化的松散数据。为什么需要HBase?Hadoop无法满足大规模数据实时处理应用的需求HDFS面向批量访问模式,不是随机访问模式传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题HBase与传统的关系数据库的区别:1.数据类型:关系数据库采用关系模型,具有丰富的数据类型和存储方式。HBase采用更加简单的数据模型,把数据存储为字符串2.数据操作:HB原创 2021-06-08 10:31:54 · 1068 阅读 · 0 评论 -
spark数据读取与保存(python)
spark支持多种输入源常见3种数据源文件格式与文件系统spark可以访问很多种不同的文件格式,包括文本文件、JSON、SequenceFile、protocol buffer.Spark SQL结构化数据源包括针对JSON、Apache Hive在内的结构化数据数据库与键值存储spark自带库和一些第三方库,可以用来连接Cassandra、HBase、Elasticsearch以及JDBC源文件格式spark支持常见格式文本文件可以将一个文本文件读取为RDD,输入的每一行都会成原创 2021-05-19 15:05:39 · 2160 阅读 · 0 评论 -
sparkSQL入门和实践(scala)
spark sql什么是spark sql?Spark SQL 是 Spark 用来处理结构化数据的一个模块,它提供了 2 个编程抽象:DataFrame 和DataSet,并且作为分布式 SQL 查询引擎的作用spark sql特点Spark SQL 的特点1)易整合2)统一的数据访问方式3)兼容 Hive4)标准的数据连接什么是 DataFrame与 RDD 类似,DataFrame 也是一个分布式数据容器。然而 DataFrame 更像传统数据库的二维表格,除了数据以外,还记录原创 2021-05-10 16:04:54 · 830 阅读 · 0 评论 -
idea scala文件报错java.lang.NoSuchMethodError解决
一开始SparkSession.builder().appName()方法报错。java.lang.NoSuchMethodError:org.apache.spark.internal.config.package$.EXECUTOR_ALLOW_SPARK_CONTEXT(),上网搜索了错,说是spark和scala版本不对,我的scala是2.12.7,网上说spark3.0对应的scala要至少2.12.10,于是费劲力气升级scala,还是报错。然后终于找到一个解决办法就是,maven换了使用原创 2021-05-10 11:38:10 · 746 阅读 · 0 评论 -
centos7解决ping 网址报错name or service not known
问题:ping不通网络解决办法,保持虚拟机与电脑网关互通一,windows上网关设置cmd ping虚拟机地址二,VMware网络设置三、systemtool—settingwired按钮关闭再开启/service network restart原创 2021-02-04 09:57:11 · 1175 阅读 · 0 评论 -
centos和windows安装docker及使用入门
centos和windows安装docker及使用入门原创 2021-03-16 16:20:02 · 1094 阅读 · 0 评论 -
大数据之hive实践三(压缩与存储 )
8.压缩和存储9.企业级调优原创 2021-03-13 12:18:01 · 105 阅读 · 0 评论 -
spark原理介绍和实践
hadoopspark 计算引擎,可替代hadoop的马匹热度册原创 2021-02-19 17:29:51 · 750 阅读 · 0 评论 -
confluent 实践一(关系数据库表同步)
注:confluent创建流/表会默认创建主题,且主题名字为表/流的大写1.创建源连接器curl -X POST http://localhost:8083/connectors -H "Content-Type: application/json" -d '{ "name": "Source_test", "config": { "key.converter": "io.confluent.connect.storage.StringConverte原创 2021-02-03 19:28:33 · 237 阅读 · 0 评论 -
ksql介绍
参考:ksql官网查询:select * from my_table emit changes;创建查询:CREATE STREAM AS SELECT or CREATE TABLE AS SELECT终止查询:非持久化查询:ctrl+c,持久化查询:terminate query_id;ksql语法pull querykafka主题非持久化SELECT select_expr [, ...] FROM aggregate_table WHERE key_column=ke原创 2021-01-08 14:26:23 · 1419 阅读 · 0 评论 -
confluent介绍
KSQL是一个用于Apache kafka的流式SQL引擎,KSQL在内部使用Kafka的Streams API,并且它们共享与Kafka流处理相同的核心抽象,KSQL有两个核心抽象,对应于到Kafka Streams中的两个核心抽象,可以处理kafka的topic数据。 KSQLDB通过将ksqlDB简化为仅两件事,有助于简化如何编写和部署流数据管道:存储(Kafka)和计算(ksqlDB)。可以使用一致,强大的SQL语言将所有流转换,合并和聚合在一起,管理数据管道的端到端流。...原创 2021-01-08 09:34:39 · 606 阅读 · 0 评论 -
sqoop实践
1.sqoop简介Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql、 postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中2.sqoop原理3.下载并解压3.1下载官网:http://mirrors.hust.edu.cn/apache/sqoopsqoop 1.4.73.2修改配置原创 2020-11-08 21:11:34 · 195 阅读 · 0 评论 -
hadoop构建数据仓库实践 数据仓库简介和数据仓库设计基础章节 读书笔记
1.数据仓库简介1.1什么是数据仓库本质上,数据仓库试图提供一种从操作型系统到决策支持环境的数据流架构模型。1.1.1 数据仓库的定义面向主题、集成(面向主题相关,多个数据源)、非易失(一般并不进行数据更新),包含历史数据的数据集合,用于决策支持。除了以上四个特性外,数据仓库还有一个非常重要的概念就是粒度。1.1.2 建立数据仓库的原因将多个数据源集成到单一数据存储,因此可以使用单一数据查询引擎展示数据。缓解在事务处理数据库上因执行大查询而产生的资源竞争问题。维护历史数据。通过对多个源原创 2020-12-16 20:57:31 · 622 阅读 · 0 评论 -
linux常用命令记录
关于Linux的一些基础知识•Shell•是指“提供使用者使用界面”的软件(命令解析器),类似于DOS下的command和后来的cmd.exe。它接收用户命令,然后调用相应的应用程序•sudo命令•sudo是ubuntu中一种权限管理机制,管理员可以授权给一些普通用户去执行一些需要root权限执行的操作。当使用sudo命令时,就需要输入您当前用户的密码•输入密码•在Linux的终端中输入密码,终端是不会显示任何你当前输入的密码,也不会提示你已经输入了多少字符密码,读者不要误以为键盘没有响应原创 2020-10-08 19:23:49 · 321 阅读 · 0 评论 -
大数据技术之kettle
实战1目的同步两个表stu,stu21.文件—转换2.输入—表输入数据库连接jar包2.输出按住shift连接,编辑映射选择是否更新每次转换前都要保存3.启动转换实战2目的:表中添加一行数据start转换dummy什么都不做...原创 2020-08-10 11:58:56 · 788 阅读 · 0 评论 -
大数据之hive实践二(DDL+DML+查询+函数)
第 4 章 DL 数据定义4.1 创建数据库1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。hive (default)> create datbase db_hive;2)避免要创建的数据库已经存在错误,增加 if not exist 判断。(标准写法)hive (default)> create datbase db_hive;FAILED: Execution Eror, return code 1 from org原创 2020-10-11 17:20:47 · 1055 阅读 · 0 评论 -
大数据之hive实践一(基础)
预知识数据仓库数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。Hive与Hadoop生态系统中其他组件的关系1.Hive基本概念1.1 什么是 HiveHive:由 Facebok 开源用于解决海量结构化日志的数据统计。Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一原创 2020-10-11 10:37:40 · 575 阅读 · 0 评论 -
大数据技术原理 复习二 hdfs
分布式文件系统HDFS3.1 分布式文件系统计算机集群结构:分布式文件系统把文件分布存储到多个计算机节点上,降低硬件开销分布式文件系统的结构:分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为两类,一类叫主节点”(Master Node)/名称结点(NameNode),另一类叫从节点(Slave Node)/数据节点”(DataNode)3.2 HDFS简介目标:兼容廉价硬件设备,流数据读写,大数据及,简单文件模型,强大的跨平台兼容性局限:不适合低延迟数据访问、无法高效存原创 2020-09-07 14:02:11 · 1697 阅读 · 0 评论 -
大数据技术原理与应用 复习一 大数据基础+hadoop
大数据概述1.1 大数据时代第三次信息化浪潮 2010年前后 解决信息爆炸的问题原因:存储设备容量不断增加、CPU处理能力大幅提升、网络宽带不断增加数据产生方式:运营式系统阶段->用户原创内容阶段(web2.0)->感知式系统阶段1.2 大数据概念volumn velocity variety value数据量大 处理数据快 数据类型多样化 价值密度低1.3 大数据的影响– 全样而非抽样– 效率而非精确– 相关而非因果1.4 大数据的应用金融、汽车、零售、餐饮、电原创 2020-09-05 12:33:58 · 1808 阅读 · 0 评论