自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Python中__future__包说明

介绍Python的__future__包的原理和使用

2024-03-21 22:44:29 1058 1

原创 关于认识概率

本文主要介绍概率论定义从约定俗成的形式化定义(经验主义)到柯尔莫哥洛夫的公理化定义(理性主义)的认知过程。讨论解释了随机变量的本质和测度论的关系,统计和概率、机器学习和概率的联系。

2024-03-20 13:49:22 1080 1

原创 Python与Hdfs的交互

本文介绍PySpark程序和HDFS交互的三种方式(第三方包、subprocess、py4j),重点介绍(py4j)的方式。

2024-03-19 15:01:36 1579

原创 Orange API 网关部署安装总结

目录背景第一部分 编译安装第二部分 高版本安装第三部分 docker安装第四部分 总结参考文献及资料背景orange是基于Nginx+lua研发的API网关项目。该项目为国人自研项目,大部分组件参考Kong网关项目。但是项目活跃性不大,文档不够丰富详细(至今官网文档还是0.6.4版本,大量issue状态open),插件缺少详细的说明。另外项目部署自动化较低,文档不够详细,部署有一定困难。本文在suse系统上部署orange高低版本(0.6.1和0.7.1两个版本)。详细说明的编译部署

2021-06-27 20:51:39 1587

原创 使用Docker快速部署hadoop测试集群

目录背景第一部分 Docker镜像准备第二部分 运行容器第三部分 cloudera-manager管理第四部分 组件使用测试第五部分 总结参考文献及资料背景通常在个人笔记本上部署Hadoop测试集群(含生态圈各组件)是个很耗时的工作。Cloudera公司提供一个快速部署的Docker镜像,可以快速启动一个测试集群。测试环境为Ubuntu服务器第一部分 Docker镜像准备首先本机需要部署有docker环境,如果没有需要提前部署。1.1 拉取Docker镜

2021-05-19 21:26:15 497

原创 Jupyter notebook的主题和字体美化

目录背景第一部分 安装第二部分 命令格式第三部分 案例参考文献及资料背景Jupyter notebook是数据科学常用的代码交互式工具。通常在server端启jupyter进程(web服务),client端打开浏览器,jupyter提供代码编写和调试交互环境。非常方便。但是jupyter提供的默认界面不够美观,特别是windows操作系统默认字体为浏览器默认字体–宋体(下图),另外默认主题太难看了,没有通常IDE提供的主题美观。发现一个Jupyter的

2021-05-19 21:20:34 2870

原创 HDFS小文件治理总结

目录背景第一部分 回本溯源第二部分 HDFS大量小文件的危害第三部分 小文件治理方案总结第四部分 总结参考文献及资料背景企业级Hadoop大数据平台在实际使用过程中,可能大部分会遭遇小文件问题,并体验它的破坏性。HDFS文件系统的 inode 信息和 block 信息以及 block 的位置信息,这些原数据信息均由 NameNode 的内存中维护,这使得 NameNode 对内存的要求非常高,特别是遭遇海量小文件。例如:京东的 NameNode 内存是 512GB,甚至还有大厂

2021-05-19 21:13:04 927

原创 Spark任务动态伸缩机制介绍

目录背景第一部分 配置实现第二部分 动态配置原理和源码分析第三部分 总结参考文献及资料背景Spark默认使用的是资源预分配的模式。即在任务运行之前,需要提前指定任务运行需要的资源量。但是在实际线上生产环境使用过程就存在资源浪费和不足的问题,特别是Spark Streaming类型的任务。例如很多日志数据在一天中量并不是均匀分布的,而是一个“双驼峰”。对于预分配模式,就存在日志峰值期间,运算资源不足导致数据处理的延迟,而在日志低峰时期存在资源闲置却无法释放(特别是资源管理器粗粒度模式)。使

2021-05-04 17:03:44 1133

原创 Elasticsearch集群升级指引

目录背景第一部分 版本升级指引第二部分 升级方法和具体步骤总结参考文献及资料背景Elasticsearch集群的版本升级是一项重要的集群维护工作。本篇文章参考官方文档,将详细介绍相关细节。第一部分 版本升级指引1.1 同步升级Elastic Stack组件对于Elasticsearch的生态圈组件需要同步升级,具体配套版本可以参考官方提供的升级指南。https://www.elastic.co/cn/products/upgrade_guide1.2 索引兼容性El

2021-04-08 20:09:44 526

原创 机器学习中的性能评估度量

背景​ 机器学习方法(监督学习、无监督学习、强化学习)通常认为由模型、策略和算法三个部分构成。例如在监督学习,模型需要从数据中学习条件概率分布(概率模型)或者决策函数(非概率模型)。而模型的假设空间(hypothesis space)就是所有可能的条件概率分布或者决策函数的总体(集合)。​ 假设空间通常是庞大的,例如深度神经网络结构能够表示一大类输入层到输出层的函数集合。这样就需要我们设定一个可以量化评测假设空间中函数优劣的度量标准,即选出最优解。我们从数学角度去理解:这里定义

2021-04-01 00:54:50 258

原创 Hive中静态分区和动态分区总结

目录背景第一部分 静态分区第二部分 动态分区第三部分 两者的比较第四部分 动态分区使用的问题参考文献及资料背景在Hive中有两种类型的分区:静态分区(Static Partitioning)和动态分区(Dynamic Partitioning)。静态分区。对于静态分区,从字面就可以理解:表的分区数量和分区值是固定的。动态分区。会根据数据自动的创建新的分区。本文会详细介绍两种分区方法、使用场景以及生产中常见问题和解决方法。第一部分 静态分区静态分区的使用场景主要是分区的数量

2021-03-31 12:50:30 1910

原创 Maven项目中resources配置总结

目录背景第一部分 基本配置介绍第二部分 具体配置和注意事项第三部分 读取resources资源参考文献及资料背景通常Maven项目的文件目录结构如下:# Maven项目的标准目录结构src main java #源文件 resources #资源文件 filters #资源过滤文件 config #配置文件 scripts #脚本文件 webapp #web应用文件 test java #测试

2021-03-30 21:43:39 3019 2

原创 Spark程序排错系列(System memory * must be at least *)

1.1 报错背景本地ideal研发环境(windows)运行spark程序调试,报错如下:21/03/29 12:28:36 ERROR SparkContext: Error initializing SparkContext. java.lang.IllegalArgumentException: System memory 259522560 must be at least 471859200. Please increase heap size using the --driver-memo

2021-03-29 22:46:31 1382 2

原创 数据库中的行式存储和列式存储

背景数据库技术发展迅速,由原来的关系型数据库到越来越丰富的非关系型数据库。如果按照存储形式分类,主要有:行式存储(Row-Based)、列式存储(Column-Based)、键值(key-value)存储、文档(doc)存储、图形(graph)存储、时序数据库等。我们常用的传统关系型数据库(MySQL、Oracle、PostgreSQL 、DB2和 SQL Server)都是采用行式存储,而最新兴起的分布式数据库很多采用列式存储,例如:Druid、Kudu、Clickhouse等。本文将详细介绍行式存储

2021-03-28 21:16:52 5136

原创 PAC(probably approximately correct) 学习架构介绍

PAC学习框架(模型)学习框架背景:PAC 模型的作者是Leslie Valiant ,因此获得2010 年图灵奖。最初PAC(probably approximately correct)学习框架针对的是二元分类问题(原装版),用严格的数学语言描述了可“学习”性。(1)对于一个输入空间XX(instance space),XX上的一个概念(conception)CC是XX上

2017-08-26 14:18:25 8749 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除