2021年04月_猿与禅

转载 java最佳实践-线程池

目录概念参数规范Demo其他概念线程池是为了提高程序执行效率，尽量减少线程对象的创建和销毁的次数而产生的一种技术。线程池内部维护了两个集合，一个是线程的集合，另一个是任务集合。线程池的好处是减少在创建和销毁线程上所消耗的时间以及系统资源的开销，解决资源不足的问题。如果不使用线程池，有可能造成系统创建大量同类线程而导致消耗完内存或者“过度切换”的问题。参数public ThreadPoolExecutor(int corePoolSize,// 线程池核心池的大小。

2021-04-26 21:03:54 1467

翻译大数据最佳实践-flink

目录概述特点API概述流处理流是数据的自然栖息地。无论是来自Web服务器的事件，来自证券交易所的交易，还是来自工厂车间机器上的传感器读数，数据都将作为流的一部分创建。但是，当您分析数据时，您可以围绕有界流或无界流来组织处理，并且选择哪种范例会产生深远的影响。有界和无界流当您处理有限的数据流时，批处理是工作的范例。在这种操作模式下，您可以选择在产生任何结果之前先摄取整个数据集，这意味着，例如，可以对数据进行排序，计算全局统计数据或产生总结所有输入的最终报告。另一方面，流处理涉及无限的数据流。至少

2021-04-22 10:57:34 1503

原创大数据最佳实践-hive on spark

目录Spark 内存配置spark动态分配HiveSpark 内存配置yarn.nodemanager.resource.memory-mb = 100 GByarn.nodemanager.resource.cpu-vcores = 28 < 机器核心数yarn.scheduler.maximum-allocation-mb>(spark.yarn.executor.memoryOverhead+spark.executor.memory )spark.executor.cores

2021-04-22 07:43:16 1454

翻译大数据最佳实践-yarn

目录yarn预热参数调优抢占任务调度策略yarn预热在开始新会话之后提交第一个查询时，您可能会遇到稍长的延迟，然后才能看到查询开始。您可能还会注意到，如果再次运行相同的查询，它的完成速度将比第一个查询快得多。Spark执行者需要额外的时间来启动和初始化YARN群集上的Spark，这会导致更长的延迟。另外，Spark在开始作业之前不会等待所有执行者准备就绪，因此在将作业提交到集群后，某些执行者可能仍在启动。但是，对于在Spark上运行的作业，提交作业时可用执行程序的数量部分决定了减速器的数量。当准备好的

2021-04-22 00:43:54 1001

原创大数据最佳实践-mapreduce

目录Shuffle机制Hadoop优化压缩切片机制1）如果MR造成系统宕机。此时要控制Yarn同时运行的任务数，和每个任务申请的最大内存。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB）2）如果写入文件过量造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。高峰期的时候用Kafka进行缓存，高峰期过去数据同步会自动跟上。Shuffle机制1）Map方法之后Reduce方法

2021-04-22 00:02:59 167

原创大数据最佳实践-基于Spark的ETL开发

目录数据同步 RDMBS to RDMBS数据同步 Hive to Hive数据同步 RDBMS to Hive数据同步 hive to rdmbsHDFS 数据监控数据同步 file to hbase数据同步 RDMBS to RDMBSpackage com.sutpc.bigdata.syncimport java.util.Propertiesimport org.apache.log4j.{Level, Logger}import org.apache.spark.sql.Spark

2021-04-22 00:02:21 779

翻译大数据最佳实践-flume

目录概述系统要求架构代码实战Properties概述flume是一个分布式的、可靠的、可用的系统，用于有效地收集、聚合大量的日志数据，并将这些数据从许多不同的源移动到一个集中的数据存储区。apacheflume的使用不仅限于日志数据聚合。由于数据源是可定制的，Flume可以用来传输大量的事件数据，包括但不限于网络流量数据、社交媒体生成的数据、电子邮件和几乎所有可能的数据源。系统要求Java运行时环境-Java 1.8或更高版本内存—为源、通道或接收器使用的配置提供足够的内存磁盘空间-足够的磁盘

2021-04-21 22:24:35 559

转载大数据最佳实践-datax

目录概览框架设计核心架构代码实战参考资料概览 DataX 是一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。datax_why_new设计理念为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路，DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候，只需要将此数据源对接到DataX，便能跟已有的数据源做到无缝数据同步。

2021-04-21 22:17:12 508

翻译大数据最佳实践-pyspark

目录概述代码实战All DataFrames above result same.提交参考资料概述这是PySpark DataFrame API的简短介绍和快速入门。PySpark DataFrames延迟评估。它们是在RDD之上实现的。当Spark转换数据时，它不会立即计算转换，而是计划以后如何计算。当明确调用诸如之类的动作时collect()，计算开始。该笔记本显示了主要面向新用户的DataFrame的基本用法。您可以在此处的实时笔记本上自己运行这些示例的最新版本。Apache Spark文档站

2021-04-21 21:52:15 566 2

原创大数据最佳实践-spark structstreaming

目录概述APIwatermarking概述结构化流是基于Spark SQL引擎构建的可伸缩且容错的流处理引擎。您可以像对静态数据进行批处理计算一样，来表示流计算。当流数据继续到达时，Spark SQL引擎将负责递增地，连续地运行它并更新最终结果。您可以在Scala，Java，Python或R中使用Dataset / DataFrame API来表示流聚合，事件时间窗口，流到批处理联接等。计算是在同一优化的Spark SQL引擎上执行的。最后，该系统通过检查点和预写日志来确保端到端的一次容错保证。简而言之

2021-04-21 18:03:06 1404

原创大数据最佳实践-SparkSQL

目录概述调优Whole-stage code generation数据倾斜Spark Adaptive Execution概述Spark SQL是用于结构化数据处理的Spark模块。与基本的Spark RDD API不同，Spark SQL提供的接口为Spark提供了有关数据结构和正在执行的计算的更多信息。在内部，Spark SQL使用这些额外的信息来执行额外的优化。与Spark SQL交互的方法有多种，包括SQL和Dataset API。计算结果时，将使用相同的执行引擎，而与要用来表达计算的API /

2021-04-21 17:36:55 806

原创大数据最佳实践-spark

目录概述TungstenBroadcasttopNAccumulatorspark blockmanagerAPI调优参数调优资源调优其他代码实战概述Apache Spark是用于大规模数据处理的统一分析引擎。它提供Java，Scala，Python和R中的高级API，以及支持常规执行图的优化引擎。它还支持一组丰富的更高级别的工具，包括星火SQL用于SQL和结构化数据的处理，MLlib机器学习，GraphX用于图形处理，以及结构化流的增量计算和流处理。TungstenMemory Managemen

2021-04-21 17:10:30 1108 2

翻译大数据最佳实践-sparkstreaming

目录概述性能调优减少批处理时间数据接收中的并行度容错语义自定义接收器如何在Spark流中实现精确语义与幂等写入恰好一次与事务写入完全一致实现-zookeeper实现-hbase实现方式-mysql概述Spark Streaming是核心Spark API的扩展，可实现实时数据流的可伸缩，高吞吐量，容错流处理。数据可以从像卡夫卡，室壁运动，或TCP套接字许多来源摄入，并且可以使用与像高级别功能表达复杂的算法来处理map，reduce，join和window。最后，可以将处理后的数据推送到文件系统，数据库和

2021-04-21 16:09:33 3781

原创大数据最佳实践-hive

目录小文件问题小文件问题一、哪里会产生小文件 ?源数据本身有很多小文件动态分区会产生大量小文件reduce个数越多, 小文件越多按分区插入数据的时候会产生大量的小文件, 文件个数 = maptask个数 * 分区数二、影响从Hive的角度看，小文件会开很多map，一个map开一个JVM去执行，所以这些任务的初始化，启动，执行会浪费大量的资源，严重影响性能。HDFS存储太多小文件, 会导致namenode元数据特别大, 占用太多内存, 制约了集群的扩展。三、解决方法方法一：通过调整参数进

2021-04-21 08:06:53 1321

原创大数据最佳实践-hdfs

提升写性能dfs.datanode.drop.cache.behind.reads设置为true表示丢弃缓存的数据（需要在DataNode中配置）。当同一份数据，重复读取的次数较少时，建议设置为true，使得缓存能够被其他操作使用。重复读取的次数较多时，设置为false能够提升重复读取的速度。dfs.client-write-packet-size当HDFS Client往DataNode写数据时，将数据生成一个包。然后将这个包在网络上传出。此参数指定传输数据包的大小，可以通过各Job来指定。单位

2021-04-21 00:16:25 1071

翻译数据库最佳实践-Redis

目录概述开发规范概述Redis是一个开源（BSD许可）的内存数据结构存储，用作数据库、缓存和消息代理。Redis提供诸如字符串、哈希、列表、集合、带范围查询的排序集合、位图、超日志、地理空间索引和流等数据结构。Redis具有内置的复制、Lua脚本、LRU逐出、事务和不同级别的磁盘持久性，并通过Redis Sentinel和Redis Cluster的自动分区提供高可用性。开发规范执行KEYS命令会查找所有符合条件的key，非常的占用CPU资源，容易造成性能问题，建议客户改成scan命令或者禁用KEY

2021-04-20 08:15:18 798

转载 java最佳实践-mybatis

目录概述入门构建 SqlSessionFactory从 SqlSessionFactory 中获取 SqlSession命名空间作用域（Scope）和生命周期动态 SQLSQL 语句构建器SQL 类项目目录结构APISqlSessionSqlSessionFactoryBuilderSqlSessionFactorySqlSession参考资料概述MyBatis 是一款优秀的持久层框架，它支持自定义 SQL、存储过程以及高级映射。MyBatis 免除了几乎所有的 JDBC 代码以及设置参数和获取结果集的

2021-04-19 23:03:31 351

翻译 java最佳实践-spring

目录概述设计原则IoC容器Bean总览相关链接概述Spring使创建Java企业应用程序变得容易。它提供了在企业环境中使用Java语言所需的一切，并支持Groovy和Kotlin作为JVM上的替代语言，并且可以根据应用程序的需求灵活地创建多种体系结构。从Spring Framework 5.1开始，Spring需要JDK 8+（Java SE 8+），并提供对JDK 11 LTS的现成支持。建议将Java SE 8更新60作为Java 8的最低修补程序版本，但通常建议使用最新的修补程序版本。Sprin

2021-04-19 17:07:04 249

原创大数据最佳实践-hbase

目录read读取优化平台端优化write写入优化客户端优化服务端优化读写分离高可用预分区RowKey设计内存优化minor compactmajor compact基础优化flush、compact、split机制迁移schema设计原则更新表模式设计经验read读取优化客户端优化get请求是否可以使用批量请求这样可以成倍减小客户端与服务端的rpc次数，显著提高吞吐量Result[] re= table.get(List gets)大scan缓存是否设置合理scan一次性需求从服务端返回大量的

2021-04-18 22:45:00 1953

原创大数据最佳实践-kafka

kafka各个重难点大全，超详细

2021-04-16 12:48:11 6087

原创大数据最佳实践-sparksubmit资源参数如何设置

假设一个 n 个主机的 YARN 集群，每个主机具有 c 个内核和 m GB 内存。yarnyarn.nodemanager.resource.memory-mb = m-0.5*nyarn.nodemanager.resource.cpu-vcores = c-4yarn.scheduler.maximum-allocation-mb>(spark.yarn.executor.memoryOverhead+spark.executor.memory )sparkspark.executo

2021-04-16 12:03:41 306

原创 python量化投资实战-股票实盘分析

数据库设计CREATE TABLE `stock_lowest` ( `stock_code` VARCHAR(50) NOT NULL COMMENT '股票代码' COLLATE 'utf8_unicode_ci', `lowest_price` DECIMAL(10,4) NOT NULL DEFAULT '0.0000' COMMENT '近一年最低价格', PRIMARY KEY (`stock_code`) USING BTREE)COLLATE='utf8_unicode_ci'

2021-04-13 23:30:39 885

原创 python量化投资实战-分析基金数据

数据库设计CREATE TABLE `fund_base_data` ( `id` INT(11) NOT NULL AUTO_INCREMENT COMMENT '主键', `fundcode` VARCHAR(50) NOT NULL DEFAULT '' COMMENT '基金代码' COLLATE 'utf8_unicode_ci', `name` VARCHAR(200) NOT NULL DEFAULT '' COMMENT '基金名称' COLLATE 'utf8_unicode_ci

2021-04-13 07:24:05 442

原创面试题精炼-大数据开发

mapreduce一、Shuffle机制1）Map方法之后Reduce方法之前这段处理过程叫Shuffle2）Map方法之后，数据首先进入到分区方法，把数据标记好分区，然后把数据发送到环形缓冲区；环形缓冲区默认大小100m，环形缓冲区达到80%时，进行溢写；溢写前对数据进行排序，排序按照对key的索引进行字典顺序排序，排序的手段快排；溢写产生大量溢写文件，需要对溢写文件进行归并排序；对溢写的文件也可以进行Combiner操作，前提是汇总操作，求平均值不行。最后将文件按照分区存储到磁盘，等待Reduce

2021-04-01 14:45:11 201

原创面试题精炼-java工程师

springmvcDispatcherServlet，前端控制器收到请求后自己不进行处理，而是委托给其他的解析器进行处理，作为统一访问点，进行全局的流程控制HandlerMapping 将会把请求映射为HandlerExecutionChain 对象（包含一个Handler 处理器（页面控制器）对象、多个HandlerInterceptor 拦截器）对象，通过这种策略模式，很容易添加新的映射策略HandlerAdapter 将会把处理器包装为适配器，从而支持多种类型的处理器，即适配器设计模式的应用，从

2021-04-01 10:02:59 140

program哲学