2021年07月_leezsj

11月 09月 08月 07月 06月 05月

原创 hdfs--

HDFS是一个分布式的文件系统我们可以用命令来访问系统的文件- 访问HDFS的命令 hadoop dfs -- 已过时 hadoop fs -- 使用范围更大 hdfs dfs -- 使用范围较小 hadoop fs和hdfs dfs之间没有大的区别- 技巧 1.在命令行中输入hdfs ,回车后可以提示hdfs后可以使用哪些命令 2.hdfs dfs,回车后会提示dfs 可以添加的一些常用shell命令- 注意事项分布式文件系统的路径

2021-07-31 16:25:11 799

转载 hadoop介绍

hadoop是apache基金会旗下的一个开源的分布式存储和分析的计算平台,使用java语言开发,有很好的跨平台性,可以运行在商用(廉价)硬件上,用户不需要了解费不是底层细节,就可以开发分布式程序,充分使用集群的高速计算和存储谷歌三篇论文2003年的<GFS>硬盘不够大数据储存单份的安全隐患问题,提出分布式文件系统存储的理论思想解决如何存储大数据集的问题2004年的<MapReduce>基于分布式的计算分析编程框架模型,移动计算而非移动数据,分而治之解决了

2021-07-31 10:22:43 244

原创 scala3

类面向对象抽象定义一个类，实际上就是把一类事物的共有的属性和行为提取出来，形成一个物理模型。面向对象编程的三大特征，封装，继承，多态封装就是把抽象出的数据和对数据的操作封装在一起，数据被保护在内部，程序的其他部分只有通过授权的操作（成员方法），才能对数据进行操作封装的理解和好处隐藏实现细节可以对数据进行验证，保证安全合理如何体现封装对类中的属性进行封装通过成员方法，包实现封装封装的步骤，将属性进行私有化，提供一个公共的get方法，用于对属性判断

2021-07-31 08:28:23 461

原创杂记lee1

数据从获取到hdfs一共放大到三倍nginx一次flume一次hdfs一次要实现精准语义一定要实现replay要容错，要恢复数据多次落盘一般实现精准语义用kafka行为数据上报的策略采取批量上报的方式，并且使用gzip压缩以节省流量1 考虑客户端的性能和日志流量2 服务器的压力因此上报策略有两个条件限制，第一发送时间 flushInterval与上次发送的时间间隔，一般定义为15s和30s，第二缓存日志的熟练bulksize，一般定义为100条或者

2021-07-30 15:37:12 102

原创 supervisor启动报错

ERROR (spawn error)supervisor: couldn't exec /opt/apps/collect-app/scripts/start-flume-agent.sh: ENOEXECsupervisor: child process was not spawned在conf里的commond后面加上一个sh+空格再加路径名然后supervisorctl rereadsupervisorctl update access-f...

2021-07-29 20:27:49 2279

原创 sqoop报错

ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.RuntimeException: java.lang.RuntimeException: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failurejavax.net.ssl.SSLException: Unsupported record version Unknown...

2021-07-28 20:52:15 605

原创 scala2

拉链扩展zip函数将传进来的两个参数中对应位置上的元素组成一个pair数组，如果其中一个参数元素比较长，那么多余的参数会被删除zipAll函数和zip函数类似，但是如果其中一个元素的个数比较少，那么江永默认的元素填充zipWithIndex函数将元素和其所在的位置索引组成一个pair该方法把集合中每个元素和该元素的索引进行一个拉链操作upzip函数可以键一个元组的列表转换成一个列表的元组列表List列表中的元素类型不可以不同列表是有序的不可变列表不可变列表的构造

2021-07-26 22:47:58 202

原创 sqoop

sqoop产生背景基于传统关系型数据库的稳定性，还是有很多企业将数据存储在关系型数据库中，早期由于工具的缺乏，hadoop与传统数据库之间的数据传输非常的困难，基于前两个方面的考虑，需要一个在传统关系型数据库和hadoop之间进行数据传输的项目，sqoop应运而生sqoop是什么sqoop是一个用于hadoop和结构化存储（如关系型数据库之间进行高效传输大批量数据的工具，他包括两个方面，可以用sqoop将数据从关系型数据库管理系统如mysql导入到hadoop系统（hdfs，hiv

2021-07-26 10:23:33 849

原创启动azkaban报错

Exception in thread "main" java.io.IOException: Cannot find 'database.properties' file in /usr/local/azkaban-solo/bin/sql/database.properties at azkaban.database.AzkabanDatabaseSetup.loadDBProps(AzkabanDatabaseSetup.java:178) at azkaban.d...

2021-07-24 18:45:50 290

原创 scala1

scalascala是多范式编程语言，集成面向对象编程和函数式编程的各种特性运行在虚拟机，兼容java程序scala被编译成java字节码，运行于jvm，可以调用java类库函数式编程更实用mapreduce和大数据模型，摒弃了数据与状态的计算模型，着眼于函数本身，而非执行过程的数据和状态数据的处理，函数时逻辑清晰简单更适合处理基于不变数据的批量处理工作这些工作都是通过mapreduce操作转化数据后生成新的副本，再进行处理，spark flink kafka都是采用scala开发

2021-07-22 17:52:43 208 1

原创地址已在使用

2021-07-21 19:40:16,542 (conf-file-poller-0) [WARN - org.mortbay.log.Slf4jLog.warn(Slf4jLog.java:76)] failed SelectChannelConnector@0.0.0.0:41414: java.net.BindException: 地址已在使用2021-07-21 19:40:16,543 (conf-file-poller-0) [WARN - org.mortbay.log.Slf4jL...

2021-07-21 19:45:50 2145

原创 sqoop导出parquet格式的数据报错

ERROR manager.SqlManager: Error executing statement: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failureThe last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from

2021-07-20 22:20:41 549

原创 sqoop mysql到hdfs报错

问题ERROR tool.ImportTool: Import failed: java.net.ConnectException: Call From leetom/192.168.10.88 to leetom:8020 failed on connection exception: java.net.ConnectException: 拒绝连接; For more details see: http://wiki.apache.org/hadoop/ConnectionRefusedCause

2021-07-20 19:45:35 212 1

原创 hdfs数据传到mysql报错

ERROR mapreduce.ExportJobBase: Export job failed!21/07/19 22:23:21 ERROR tool.ExportTool: Error during export:Export job failed!先重新导入数据sqoop import --connect jdbc:mysql://qianfeng01:3306/leetom \--username root --password 123456 \--query 'select em

2021-07-19 22:40:55 372

原创 sqoop mysql--＞hive报错

ERROR tool.BaseSqoopTool: Error parsing arguments for import:21/07/19 16:13:56 ERROR tool.BaseSqoopTool: Unrecognized argument: --hive-imp要把ip从localhost改成ip或者IP映射的主机名

2021-07-19 16:17:19 853

原创 sqoop从mysql中取数据报错

Error: java.lang.RuntimeException: java.lang.RuntimeException: com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link failure有可能是地址映射的问题，我这里用的localhost，建议要用localhost，直接用地址映射的主机名，比如我192.168.111.111 映射的主机名是 leetom这里可以直接填leetom或者IP地.

2021-07-19 15:53:06 233

原创 sqoop 从mysql转到hive报错

ERROR hive.HiveConfig: Could not load org.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.21/07/19 14:55:45 ERROR tool.ImportTool: Import failed: java.io.IOException: java.lang.ClassNotFoundException: org.apache.hadoop.hive.con.

2021-07-19 15:13:02 96

原创启动hive服务报错

hive-site.xml:17:78: The reference to entity "useSSL" must end with the ';' delimiter.21/07/19 14:30:18 FATAL conf.Configuration: error parsing conf file:/usr/local/hive/conf/hive-site.xmlorg.xml.sax.SAXParseException; systemId: file:/usr/local/hive/conf

2021-07-19 14:44:05 619

原创 hive --service metastore &报错

Could not create ServerSocket on address 0.0.0.0/0.0.0.0:9083.jps查看有几个runjar全部杀死kill -9 进程号启动成功hive --service metastore &

2021-07-19 14:40:52 843

原创 hive执行sql报错

FAILED: SemanticException org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.RuntimeException: Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient有可能是hive服务没有启动hive --service metastore &...

2021-07-19 08:32:06 435

原创 hive初始化元数据报错

Error: Duplicate key name 'PCS_STATS_IDX' (state=42000,code=1061)org.apache.hadoop.hive.metastore.HiveMetaException: Schema initialization FAILED! Metastore state would be inconsistent !!Underlying cause: java.io.IOException : Schema script failed, error

2021-07-19 08:22:29 540

原创 sqoop将linux服务器上的mysql数据库中的数据放到hdfs上去报错

ERROR tool.ImportTool: Import failed: Import job failed!orINFO mapreduce.Job: Job job_1626609768772_0001 failed with state FAILED due to: Task failed task_1626609768772_0001_m_000001Job failed as tasks failed. failedMaps:1 failedReduces:0orCaused.

2021-07-18 20:47:28 920

原创 flume

flume大数据处理流程1、数据采集2、数据存储3、数据清洗4、数据分析5、数据展示在数据采集和搜索工具中flume框架占有一定的市场分量flumeflume是一种分布式，可靠的高可用的服务，用于有效的收集，聚合和移动大量日志数据，它具有基于数据流的简单灵活的体系结构，它具有调整可靠性机制以及许多故障转移和恢复机制，具有强大的功能和容错能力，它使用一个简单的可扩展数据模型语序在线分析应用程序官网http://flume.apache.org/flum.

2021-07-17 16:59:08 807 2

原创将类依赖的包一起打包到jar中

(TaildirSource.java:236)] Unable to tail filesjava.lang.NoClassDefFoundError: com/alibaba/fastjson/JSON at MyInterceptor.intercept(MyInterceptor.java:35) at MyInterceptor.intercept(MyInterceptor.java:70) at org.apache.flume.inte...

2021-07-17 16:19:42 480 1

原创 flume测试时报错

SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/usr/local/flume/lib/slf4j-log4j12-1.6.1.jar!/org/slf4j/impl/StaticLoggerBinder.class]SLF4J: Found binding in [jar:file:/opt/soft/hadoop/hadoop-2.7.6/share/hadoop/common

2021-07-17 11:31:09 355

原创 hbase合集

HBASEhbase的来源1、hdfs的数据读写延迟高2、不能进行实时删除局部数据3、hive的数据必须要指定的列或者字段，必须要格式化的数据4、hbase来源于google的bigtablehbase的定义hbase是一个基于hadoop开源的，分布式的，多版本的，可扩展的，非关系型数据库，能够处理海量数据，（数十亿行，数百万列），面向列存储，面向稀疏存储（mysql面向行存储）HBase特性hbase类似于：redis，clickhouse,mongodb，canss

2021-07-17 09:05:27 1320 1

原创用mrjava代码把文件传到hbase一文中把本地地址改到网络地址报错

Exception in thread "main" java.lang.IllegalArgumentException: Pathname /D:/maven/apache-maven-3.6.3/apache-maven-3.6.3/repository/org/apache/hbase/hbase-client/1.3.6/hbase-client-1.3.6.jar from hdfs://qianfeng01:8020/D:/maven/apache-maven-3.6.3/apache-m..

2021-07-17 09:02:00 138 1

原创打开hbase查看表报错

ERROR: org.apache.hadoop.hbase.PleaseHoldException: Master is initializing at org.apache.hadoop.hbase.master.HMaster.checkInitialized(HMaster.java:2485) at org.apache.hadoop.hbase.master.MasterRpcServices.getTableNames(MasterRpcServices.jav...

2021-07-17 08:18:49 435

原创用mrjava代码把文件上传到hbase

HbaseUtil.javaimport org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.Cell;import org.apache.hadoop.hbase.CellUtil;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.*;import org.apache.hadoo.

2021-07-16 23:17:49 295 1

原创 hiveserver2报错

Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hive.common.util.HiveStringUtils.startupShutd ownMessage(Ljava/lang/Class;[Ljava/lang/String;Lorg/apache/commons/logging/Log;)Vjar包冲突，可能是在hive的lib中添加了其他的jar包，导致系统找jar包时...

2021-07-14 11:15:22 363

原创 hive-3

⼆级分区⼆级分区指的是在⼀张表中有两个分区,创建和插⼊时都要指定两个分区名,最常⻅的就是下⾯案例的年和⽉,创建的语法和流程都是和⼀级分区⼀样,只是多⼀个分区⽽已.create table if not exists part2(id int,name string)partitioned by (year string,month string)row format delimited fields terminated by ',';load data local inpath

2021-07-13 19:09:03 571 1

原创 udtf自定义函数

package hive;import org.apache.hadoop.hive.ql.exec.UDFArgumentException;import org.apache.hadoop.hive.ql.metadata.HiveException;import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspec.

2021-07-12 21:29:08 255 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

手机流量上行下行数据.7z

springboot mybatis mysql echarts疫情表单.7z

ckpt-24ccccc.7z

ckpt-23cccccccccc.7z

ckpt-22cccccccccc.7z

中英翻译模型数据 中英互译语料

空空如也

中英翻译模型数据中英互译语料