- 博客(16)
- 收藏
- 关注
原创 crontab使用笔记
表示每分钟给1.txt的文件里面追加abc,其中,这个路径是本地的路径,不是hdfs上的。第1列表示分钟1~59 每分钟用*或者 */1表示。在这个文件中输入你要定时执行的脚本的命令。第5列标识号星期0~6(0表示星期天)需要增加sh执行的命令,这样就可以了。第2列表示小时1~23(0表示0点)直接输入:crontab -e。分 时 日 月 周 命令。第3列表示日期1~31。第4列表示月份1~12。
2023-03-29 18:22:55 337
原创 hive sql的问题解决
Failed with exception java.io.IOException: rename for src path: hdfs://emr-cluster/user/hive/wareh
2021-07-26 17:06:53 314
原创 Clickhouse优缺点及性能情况
优点:1,为了高效的使用CPU,数据不仅仅按列存储,同时还按向量进行处理;2,数据压缩空间大,减少IO;处理单查询高吞吐量每台服务器每秒最多数十亿行;3,索引非B树结构,不需要满足最左原则;只要过滤条件在索引列中包含即可;即使在使用的数据不在索引中,由于各种并行处理机制ClickHouse全表扫描的速度也很快;4,写入速度非常快,50-200M/s,对于大量的数据更新非常适用。缺点:1,不支持事务,不支持真正的删除/更新;2,不支持高并发,官方建议qps为100,可以通过修改配置文件增加连接数
2021-07-26 15:00:44 10515
转载 大数据测试策略
作为一名开发,可能会被问到大数据测试类相关的知识。虽然可能性不大,但是楼主就被问到了一次,当时那个尴尬呀大数据处理的三个特性:大批量实时性可交互另外,数据质量也同样是大数据测试的一个重要维度。因此在进行应用程序测试之前,必须确保数据质量,并且考虑把数据质量作为数据库测试的一部分。涉及数据的各种特性的检验,例如一致性、准确性、重复性、连贯性、有效性及完整性等等。大数据测试大体可以分为三...
2020-04-10 11:20:51 809
原创 hadoop解决大数据问题的步骤
基本步骤(提取数据,存储数据,处理数据)提取数据从各种来源提取数据,例如:RDBM(Relational Database Management Systems)关系数据库管理系统,如 Oracle,MySQL 等。ERPs(Enterprise Resource Planning)企业资源规划(即 ERP)系统,如 SAP。CRM(Customer Relationships Mana...
2020-04-06 12:47:04 723
原创 Hadoop生态圈中的组件和构成
是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop 的核心是 HDFS ,Mapreduce和 YARN,但是也有其他组件。1,HDFS(hadoop分布式文件系统)HDFS是hadoop分布式文件系统hdfs是hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障。client:切分文件,访问HDFS,与那么弄得交互,获...
2020-04-05 16:36:21 568
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人