hrbeuwhw的专栏

IT技术,互联网,大数据,机器学习,搜索,人工智能

排序:
默认
按更新时间
按访问量

Shell date 命令详解

  格式: date [选项] ... [+格式] 选项说明:   -d ,--date=字符串   显示指定字符串所描述的时间 格式说明:   例子1: #!/bin/bash ##1. 获取当前系统时间 YYYY-MM-DD HH:MM:SS v_time_eq=`...

2018-08-22 19:04:24

阅读数:57

评论数:0

nginx优化之request_time 和upstream_response_time差别

  笔者在根据nginx的accesslog中$request_time进行程序优化时,发现有个接口,直接返回数据,平均的$request_time也比较大。原来$request_time包含了用户数据接收时间,而真正程序的响应时间应该用$upstream_response_time。 下面介绍...

2018-08-15 17:13:38

阅读数:69

评论数:0

springboot中配置tomcat的access log

在tomcat的access中打印出请求的情况可以帮助我们分析问题,通常比较关注的有访问IP、线程号、访问url、返回状态码、访问时间、持续时间。 在Spring boot中使用了内嵌的tomcat,可以通过server.tomcat.accesslog配置tomcat 的access日志,这里...

2018-08-15 15:11:39

阅读数:63

评论数:0

Java:一步步带你深入了解神秘的Java反射机制

前言 在 Java中,反射机制(Reflection)非常重要,但对于很多开发者来说,这并不容易理解,甚至觉得有点神秘 今天,我将献上一份 Java反射机制的介绍 & 实战攻略,希望你们会喜欢。  目录 1. 简介 定义:Java语言中 一种 动态(运行...

2018-07-29 19:58:24

阅读数:78

评论数:0

Java的三种代理模式

1.代理模式 代理(Proxy)是一种设计模式,提供了对目标对象另外的访问方式;即通过代理对象访问目标对象.这样做的好处是:可以在目标对象实现的基础上,增强额外的功能操作,即扩展目标对象的功能. 这里使用到编程中的一个思想:不要随意去修改别人已经写好的代码或者方法,如果需改修改,可以通过代理的方...

2018-07-18 19:57:58

阅读数:56

评论数:0

Hadoop之HDFS文件读写过程

一、HDFS读过程      1.1 HDFS API 读文件 [java] view plain copyConfiguration conf = new Configuration();  FileSystem fs = FileSystem.get(conf);  Path file = n...

2018-03-18 21:36:04

阅读数:193

评论数:0

【机器学习笔记1】Logistic回归总结

1.引言看了Stanford的Andrew Ng老师的机器学习公开课中关于Logistic Regression的讲解,然后又看了《机器学习实战》中的LogisticRegression部分,写下此篇学习笔记总结一下。首先说一下我的感受,《机器学习实战》一书在介绍原理的同时将全部的算法用源代码实现...

2018-03-15 10:18:33

阅读数:128

评论数:0

伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布、连续分布(正态分布)、大数定理、中心极限定理、贝叶斯理论

机器学习中常遇到关于各种分布的问题,不过这些知识都已经忘得差不多了,就搜了点资料,详细讲解下伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布 ,用于后期回顾。 ...

2018-03-14 22:06:16

阅读数:159

评论数:0

如何理解beta分布?

相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的。用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。举一个简单的例子,熟悉棒球运动的都知道有一个指标就是棒球击球率...

2018-03-14 14:30:46

阅读数:117

评论数:0

如何建设高可用系统

面试的时候经常会问一个问题,如何建设高可用系统?大家可以一起探讨下。“高可用性”(High Availability)通常来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。以下是高可用系统的设计建议: 设计建议减少单点 – 去单点首先要识别整个系统所有主链路的单点,如机房(...

2018-03-11 21:21:10

阅读数:408

评论数:0

关于高可用系统的一些技术方案

系统设计关于高可用系统的一些技术方案高可用方法论扩展隔离解耦限流分类漏桶算法令牌桶算法滑动窗口计数法动态限流降级熔断发布相关模块级自动化测试灰度发布 回滚其他总结参考资料系统设计:关于高可用系统的一些技术方案可靠的系统是业务稳定、快速发展的基石。那么,如何做到系统高可靠、高可用呢?下面首先讲一下高...

2018-03-11 21:14:58

阅读数:1224

评论数:0

Apache Spark 内存管理详解

Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spa...

2018-03-11 21:11:06

阅读数:73

评论数:0

从实际案例聊聊Java应用的GC优化

当Java程序性能达不到既定目标,且其他优化手段都已经穷尽时,通常需要调整垃圾回收器来进一步提高性能,称为GC优化。但GC算法复杂,影响GC性能的参数众多,且参数调整又依赖于应用各自的特点,这些因素很大程度上增加了GC优化的难度。即便如此,GC调优也不是无章可循,仍然有一些通用的思考方法。本篇会介...

2018-03-10 22:32:26

阅读数:82

评论数:0

Spark性能优化总结

近期优化了一个spark流量统计的程序,此程序跑5分钟小数据量日志不到5分钟,但相同的程序跑一天大数据量日志各种失败。经优化,使用160 vcores + 480G memory,一天的日志可在2.5小时内跑完,下面对一些优化的思路方法进行梳理。优化的目标保证大数据量下任务运行成功降低资源消耗提高...

2018-03-10 22:31:24

阅读数:53

评论数:0

Spark性能优化指南:高级篇

前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性...

2018-03-10 22:25:00

阅读数:87

评论数:0

Spark性能优化指南:基础篇

前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、 流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用 Spark。大多数...

2018-03-10 22:23:56

阅读数:71

评论数:0

Spark性能调优之代码方面的优化

Spark性能调优之代码方面的优化1.避免创建重复的RDD    对性能没有问题,但会造成代码混乱 2.尽可能复用同一个RDD,减少产生RDD的个数 3.对多次使用的RDD进行持久化(cache,persist,checkpoint)如何选择一种最合适的持久化策略?    默认MEMORY_ONL...

2018-03-10 21:13:15

阅读数:90

评论数:0

第二篇:使用Spark对MovieLens的特征进行提取

阅读目录前言类别特征提取派生特征提取文本特征提取归一化特征回到顶部前言       在对数据进行了初步探索后,想必读者对MovieLens数据集有了感性认识。而在数据挖掘/推荐引擎运行前,往往需要对数据预处理。预处理的重要性不言而喻,甚至比数据挖掘/推荐系统本身还重要。       然而完整的数据...

2018-03-10 18:58:10

阅读数:314

评论数:0

三篇:一个Spark推荐系统引擎的实现

阅读目录前言第一步:提取有效特征第二步:训练推荐模型第三步:使用ALS推荐模型第四步:物品推荐第五步:推荐效果评估小结回到顶部前言       经过2节对MovieLens数据集的学习,想必读者对MovieLens数据集认识的不错了;同时也顺带回顾了些Spark编程技巧,Python数据分析技巧。...

2018-03-10 18:57:34

阅读数:472

评论数:0

VisualVM 分析full GC问题记录

背景:JAVA APP,主要功能是处理日志并存入db现象:运行一段时间就出现OOM问题,查看GC log发现运行没多久就一直Full GC,并且抛出OOM的异常。[Full GC (Ergonomics) [PSYoungGen: 529920K->525999K(61491...

2018-03-07 21:32:31

阅读数:156

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭