自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 常见问题类型的最后一层激活和损失函数选择

问题类型 最后一层激活 损失函数 二分类问题 sigmoid binary_crossentropy 多分类、单标签问题 softmax categorical_crossentropy 多分类、多标签问题 sigmoid binary_crossentropy 回归到任意值 无 mse 回归到0-1范围内的值 ...

2019-01-14 13:42:40 3713 1

原创 防止神经网络过拟合的方法

总结一下,防止神经网络过拟合的常用方法包括: 获取更多的训练数据 减小网络容量 添加权重正则化 添加 dropout

2019-01-14 11:42:52 460

原创 Elasticsearch

1.概念:Elasticsearch是一个实时分布式搜索和分析引擎。它用于全文搜索、结构化搜索、分析。2.elasticsearch与数据库的类比关系型数据库(比如Mysql)非关系型数据库(Elasticsearch)数据库Database索引Index表Table类型Type数据行Row文档Document数据列Column字段Field约束 Schema映射Mapping3.ES存入数据和搜...

2018-05-10 10:11:29 204

原创 Storm

1.概念:Storm是一个免费开源的分布式实时计算系统。Storm能轻松可靠地处理无界的数据流,就像Hadoop对数据进行批处理。2.应用场景:推荐系统,金融系统,预警系统,网站统计。3.编程模型:4.核心组件:nimbus是整个集群的控管核心,负责topology的提交、运行状态监控、任务重新分配等工作。zk就是一个管理者,监控者。总体描述:nimbus下命令(分配任务),zk监督执行(心跳监控...

2018-05-09 15:58:05 142

原创 HBASE

一。概念HBASE是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBASE技术可在廉价PC Server上搭建起大规模结构化存储集群。数据以二进制byte数组存储。二。数据模型(Row key,Columns family,Cell,Time Stamp)三。常用命令名称命令表达式创建表create '表名', '列族名1','列族名2','列族名N'查看所有表list描述表desc...

2018-04-27 15:53:36 141

原创 HIVE

一。基本组成Ø 用户接口:包括 CLI、JDBC/ODBC、WebGUI。Ø 元数据存储:通常是存储在关系数据库如 mysql , derby中。Ø 解释器、编译器、优化器、执行器。二。体系结构三。HIVE优化•解决数据倾斜问题•减少job数(合并MapReduce,用Multi-group by)•设置合理的map reduce的task数,能有效提升性能。•数据量较大的情况下,慎用count(...

2018-04-27 11:58:35 157

原创 Hadoop HDFS

一。组成:1)HDFS集群包括,NameNode和DataNode以及Secondary Namenode。2)NameNode负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。3)DataNode 负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本。4)Secondary NameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HD...

2018-04-27 11:26:26 167

原创 数据倾斜解决方案

1.原理以及现象分析:出现数据倾斜的原因,基本只可能是因为发生了shuffle操作,在shuffle的过程中,出现了数据倾斜的问题。因为某个,或者某些key对应的数据,远远的高于其他的key。你在自己的程序里面找找,哪些地方用了会产生shuffle的算子,groupByKey、countByKey、reduceByKey、join。看log一般会报是在你的哪一行代码,导致了OOM异常;或者呢,看l...

2018-04-10 11:26:47 2801

原创 troubleshooting

1.控制shuffle reduce端缓冲大小以避免OOM:spark.reducer.maxSizeInFlight。就应该减少reduce端task缓冲的大小。我宁愿多拉取几次,但是每次同时能够拉取到reduce端每个task的数量,比较少,就不容易发生OOM内存溢出的问题。(比如,可以调节成12M)。2.解决JVM GC导致的shuffle文件拉取失败:spark.shuffle.io.ma...

2018-04-10 11:01:59 340

原创 算子调优

1.MapPartitions提升Map类操作性能:MapPartitions操作的优点:如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。但是,使用MapPartitions操作之后,一个task仅仅会执行一次function,function一次接收所有的partition数据。只要执行一次就可以了,性能比较高。2.filter过后...

2018-04-10 10:50:48 198

原创 Shuffle调优

1.原理概述:在spark中,主要是以下几个算子:groupByKey、reduceByKey、countByKey、join,等等会发生shuffle。groupByKey,要把分布在集群各个节点上的数据中的同一个key,对应的values,都给集中到一块儿,集中到集群中同一个节点上,更严密一点说,就是集中到一个节点的一个executor的一个task中。然后呢,集中一个key对应的values...

2018-04-10 10:41:07 197

原创 Spark性能调优

1.分配更多资源:分配executor、cpu per executor、memory per executor、driver memory资源。在我们在生产环境中,提交spark作业时,用的spark-submit shell脚本,里面调整对应的参数。你能使用的资源有多大,就尽量去调节到最大的大小(executor的数量,几十个到上百个不等;executor内存;executor cpu cor...

2018-04-10 10:27:14 140

原创 实时数据采集流程

网站或者app埋点--Nginx--后台Web服务器(Tomcat、Jetty)--后台系统(J2EE、PHP)--flume--Kafka--storm/Spark Streaming

2018-04-10 10:12:00 2057

原创 离线日志采集流程

用户请求--后台服务器--定时器定时合并处理日志文件--flume--HDFS--数据清洗--Hive--Spark/Hdoop/Storm

2018-04-10 10:09:14 828

原创 SparkSteaming细节问题

此处添加的topic名称要与服务器创建的名称一致,否则不能读取kakfa的消息。

2018-03-22 16:43:53 193

原创 SparkSteaming细节问题

batch interval可以根据你的应用程序的延迟要求以及可用的集群资源情况来设置。注意如果虚拟机/服务器配置不行,这个时间不能设置太短,否则SparkSteaming会跑不起来。...

2018-03-22 10:17:27 153

转载 SparkSql整合Hive注意点

  其他的配置hive基本配置就不记录了!!1. 拷贝$HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf/2. 在$SPARK_HOME/conf/目录中,修改spark-env.sh,添加    export HIVE_HOME=/usr/local/apache-hive-0.13.1-bin  注:切记SPARK_CLASSPATH这一行必须的配置:...

2018-03-14 16:09:07 682

原创 Spark细节问题

注意脚本文件符号的半全角,例如\,错误导致脚本文件不能运行。

2018-03-14 15:14:05 168

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除