赤焰123-CSDN博客

原创常见问题类型的最后一层激活和损失函数选择

问题类型最后一层激活损失函数二分类问题 sigmoid binary_crossentropy 多分类、单标签问题 softmax categorical_crossentropy 多分类、多标签问题 sigmoid binary_crossentropy 回归到任意值无 mse 回归到0-1范围内的值 ...

2019-01-14 13:42:40 3713 1

原创防止神经网络过拟合的方法

总结一下，防止神经网络过拟合的常用方法包括：获取更多的训练数据减小网络容量添加权重正则化添加 dropout

2019-01-14 11:42:52 460

1.概念：Elasticsearch是一个实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析。2.elasticsearch与数据库的类比关系型数据库（比如Mysql）非关系型数据库（Elasticsearch）数据库Database索引Index表Table类型Type数据行Row文档Document数据列Column字段Field约束 Schema映射Mapping3.ES存入数据和搜...

2018-05-10 10:11:29 204

原创 Storm

1.概念：Storm是一个免费开源的分布式实时计算系统。Storm能轻松可靠地处理无界的数据流，就像Hadoop对数据进行批处理。2.应用场景：推荐系统，金融系统，预警系统，网站统计。3.编程模型：4.核心组件：nimbus是整个集群的控管核心，负责topology的提交、运行状态监控、任务重新分配等工作。zk就是一个管理者，监控者。总体描述：nimbus下命令（分配任务），zk监督执行（心跳监控...

2018-05-09 15:58:05 142

原创 HBASE

一。概念HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。数据以二进制byte数组存储。二。数据模型（Row key，Columns family，Cell，Time Stamp）三。常用命令名称命令表达式创建表create '表名', '列族名1','列族名2','列族名N'查看所有表list描述表desc...

2018-04-27 15:53:36 141

原创 HIVE

一。基本组成Ø 用户接口：包括 CLI、JDBC/ODBC、WebGUI。Ø 元数据存储：通常是存储在关系数据库如 mysql , derby中。Ø 解释器、编译器、优化器、执行器。二。体系结构三。HIVE优化•解决数据倾斜问题•减少job数（合并MapReduce，用Multi-group by）•设置合理的map reduce的task数，能有效提升性能。•数据量较大的情况下，慎用count(...

2018-04-27 11:58:35 157

原创 Hadoop HDFS

一。组成：1）HDFS集群包括，NameNode和DataNode以及Secondary Namenode。2）NameNode负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息。3）DataNode 负责管理用户的文件数据块，每一个数据块都可以在多个datanode上存储多个副本。4）Secondary NameNode用来监控HDFS状态的辅助后台程序，每隔一段时间获取HD...

2018-04-27 11:26:26 167

原创数据倾斜解决方案

1.原理以及现象分析：出现数据倾斜的原因，基本只可能是因为发生了shuffle操作，在shuffle的过程中，出现了数据倾斜的问题。因为某个，或者某些key对应的数据，远远的高于其他的key。你在自己的程序里面找找，哪些地方用了会产生shuffle的算子，groupByKey、countByKey、reduceByKey、join。看log一般会报是在你的哪一行代码，导致了OOM异常；或者呢，看l...

2018-04-10 11:26:47 2801

原创 troubleshooting

1.控制shuffle reduce端缓冲大小以避免OOM：spark.reducer.maxSizeInFlight。就应该减少reduce端task缓冲的大小。我宁愿多拉取几次，但是每次同时能够拉取到reduce端每个task的数量，比较少，就不容易发生OOM内存溢出的问题。（比如，可以调节成12M）。2.解决JVM GC导致的shuffle文件拉取失败：spark.shuffle.io.ma...

2018-04-10 11:01:59 340

原创算子调优

1.MapPartitions提升Map类操作性能：MapPartitions操作的优点：如果是普通的map，比如一个partition中有1万条数据；ok，那么你的function要执行和计算1万次。但是，使用MapPartitions操作之后，一个task仅仅会执行一次function，function一次接收所有的partition数据。只要执行一次就可以了，性能比较高。2.filter过后...

2018-04-10 10:50:48 198

原创 Shuffle调优

1.原理概述：在spark中，主要是以下几个算子：groupByKey、reduceByKey、countByKey、join，等等会发生shuffle。groupByKey，要把分布在集群各个节点上的数据中的同一个key，对应的values，都给集中到一块儿，集中到集群中同一个节点上，更严密一点说，就是集中到一个节点的一个executor的一个task中。然后呢，集中一个key对应的values...

2018-04-10 10:41:07 197

原创 Spark性能调优

1.分配更多资源：分配executor、cpu per executor、memory per executor、driver memory资源。在我们在生产环境中，提交spark作业时，用的spark-submit shell脚本，里面调整对应的参数。你能使用的资源有多大，就尽量去调节到最大的大小（executor的数量，几十个到上百个不等；executor内存；executor cpu cor...

2018-04-10 10:27:14 140

原创实时数据采集流程

网站或者app埋点--Nginx--后台Web服务器（Tomcat、Jetty）--后台系统（J2EE、PHP）--flume--Kafka--storm/Spark Streaming

2018-04-10 10:12:00 2057

原创离线日志采集流程

用户请求--后台服务器--定时器定时合并处理日志文件--flume--HDFS--数据清洗--Hive--Spark/Hdoop/Storm

2018-04-10 10:09:14 828

原创 SparkSteaming细节问题

此处添加的topic名称要与服务器创建的名称一致，否则不能读取kakfa的消息。

2018-03-22 16:43:53 193

原创 SparkSteaming细节问题

batch interval可以根据你的应用程序的延迟要求以及可用的集群资源情况来设置。注意如果虚拟机/服务器配置不行，这个时间不能设置太短，否则SparkSteaming会跑不起来。...

2018-03-22 10:17:27 153

转载 SparkSql整合Hive注意点

其他的配置hive基本配置就不记录了！！1. 拷贝$HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf/2. 在$SPARK_HOME/conf/目录中，修改spark-env.sh，添加 export HIVE_HOME=/usr/local/apache-hive-0.13.1-bin 注:切记SPARK_CLASSPATH这一行必须的配置:...

2018-03-14 16:09:07 682

原创 Spark细节问题

注意脚本文件符号的半全角，例如\，错误导致脚本文件不能运行。

2018-03-14 15:14:05 168

qq_35419086的博客

原创常见问题类型的最后一层激活和损失函数选择

原创防止神经网络过拟合的方法

原创 Elasticsearch

原创 Storm

原创 HBASE

原创 HIVE

原创 Hadoop HDFS

原创数据倾斜解决方案

原创 troubleshooting

原创算子调优

原创 Shuffle调优

原创 Spark性能调优

原创实时数据采集流程

原创离线日志采集流程

原创 SparkSteaming细节问题

原创 SparkSteaming细节问题

转载 SparkSql整合Hive注意点

原创 Spark细节问题

空空如也

空空如也