自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

陆上溪流

Image & Action.

  • 博客(53)
  • 收藏
  • 关注

原创 IPFS 初探

IPFS 的探索

2022-08-24 23:34:23 136 1

原创 数据仓库即服务概述

本文参考 Google 的 Site Reliability Engineering[6],通过阐述数据仓库服务的服务目标 (SLO),初步定义了数据仓库即服务(Data Warehouse as a Service)这一概念,并举例介绍了为达到不同目标可以采取的服务评估和改善措施。.........

2022-06-24 17:40:36 537

原创 [Online Judge]返回最大连续子串整数之和以及对应的子串

常见面试编程题目

2022-06-01 22:27:12 131

原创 数据库系统:持久性的技术基础

持久性在数据库中具体是如何实现的呢?

2019-11-27 17:40:54 1588

原创 分布式系统与 Google 早期的三篇论文

相信许多对大数据感兴趣的人都听说过 Google 在十年前发表的三项重要成果: Google File System、 MapReduce 和 Bigtable 。Google 在这些成果中,介绍了其利用通用计算设备成功搭建分布式集群的方法。其中的诸多设计思想,在后来被广泛采用。为什么要设计这些系统?这些系统都有什么用处?这些系统在实现上有哪些特点?对后来的系统设计有哪些启发意义?本文通过提出并回答一系列问题,介绍目前流行的大数据技术的核心设计理念和技术实现。

2019-11-10 21:59:48 1705 2

原创 37% 法则的数学原理

相关问题死理性派恋爱法:拒绝掉前面37%的人微软面试题一到十楼每层电梯口都放颗大小不一的钻石。你乘电梯单向从一到十楼,每层电梯门会开一次,并且你只能拿一次钻石。请问你如何能拿到最大的一颗?问题建模策略分两个阶段完成挑选。(1)观察阶段:只看不决定,先了解前面出现的钻石的大小,心里有个底;(2)选择阶段:选择比之前所有钻石都大的那颗,如果到第十层还没做出选择,就选择最后一颗钻石。...

2019-09-29 01:18:03 4587 1

原创 online-judge 翻转数组

出处:https://exercise.acmcoder.com/online/online_judge_ques?ques_id=1656&konwledgeId=134翻转数组给定一个长度为n的整数数组a,元素均不相同,问数组是否存在这样一个片段,只将该片段翻转就可以使整个数组升序排列。其中数组片段[l,r]表示序列a[l], a[l+1], …, a[r]。原始数组为a[1],...

2019-09-18 23:45:30 161

原创 Python 正则表达式——re.sub 不完全替换

利用 re.sub 将字符串中的 [单词]~[单词] 替换为 [单词]-[单词]I am 20~Year Old~ 变为 I am 20-Year Old~

2019-09-11 21:30:17 667

原创 leetcode 212. 单词搜索 II Java 实现

关键词回溯 trie(前缀树)题目描述给定一个二维网格 board 和一个字典中的单词列表 words,找出所有同时在二维网格和字典中出现的单词。单词必须按照字母顺序,通过相邻的单元格内的字母构成,其中“相邻”单元格是那些水平相邻或垂直相邻的单元格。同一个单元格内的字母在一个单词中不允许被重复使用。示例:输入:words = ["oath","pea","eat","rain"] a...

2019-09-06 15:53:10 318

原创 SQL 语言知识拾遗

数据库语言 SQLSQL 语言知识提纲相关问题分组聚集操作中的空值处理可重复读和幻读多关系查询执行步骤说明其他细节参考资料SQL 语言知识提纲数据库相关知识对于后端开发太重要了!SQL 语言的内容提要如下所示,可用于回顾 SQL 语法和重要概念。相关问题分组聚集操作中的空值处理当元组含有空值时,要记住以下几条规则:空值在任何聚集操作中都被忽视。它不对SUM, AVG, COUNT...

2019-08-24 23:15:27 138

原创 开发项目架构入门——源代码的组织方法

开发项目架构入门——源代码的组织方法一个软件开发项目中的代码是如何组织的呢?如果需要对不同功能的源代码文件进行合理组织,以便于灵活应对未来需求变化,需要开发者在系统设计之初就重视代码的结构组织管理。这方面有一些可以借鉴的工作,比如蚂蚁金服面向服务的 SOFA 中台框架中的代码组织方法。尽管没有开源,但网上还是能找到一些相关资料。SOFA 框架中一个项目的代码结构SOFA 将代码分为了5个有...

2019-08-21 22:50:05 777

原创 LeetCode #384 打乱数组 Java 实现

题目描述打乱一个没有重复元素的数组。// 以数字集合 1, 2 和 3 初始化数组。int[] nums = {1,2,3};Solution solution = new Solution(nums);// 打乱数组 [1,2,3] 并返回结果。任何 [1,2,3]的排列返回的概率应该相同。solution.shuffle();// 重设数组到它的初始状态[1,2,3]。so...

2019-08-08 23:23:36 235

原创 蓄水池抽样算法——摘抄与问题扩展

内容纲要问题与解答问题描述数学模型算法应用如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入参考资料问题与解答【问题背景】问题描述我们对Markdown编辑...

2019-08-08 23:21:14 277

原创 DataX 运行时加载自定义 transformer 插件

如何让 DataX 运行时加载自定义 transformer 插件早该知道的一种更高级的 transformer 自定义方法。前言之前的文章有介绍过通过自定义 transformer 在 DataX 上实现 ETL(Extract Transform Load) 过程中定制化的数据处理,当时的实现方法是自定义插件并手写代码注册到com/alibaba/datax/core/transport...

2019-03-28 21:07:55 7568 6

原创 Scala 保留字(关键字)解读——未完待续

Scala 太 sao 啦,在学习关键字的时候就感受到了!Scala 关键字下表列出了 scala 保留关键字,我们不能使用以下关键字作为变量:abstract case catch class def do else extends false final finally for forSome if im...

2019-01-02 21:52:53 782

原创 信息论的基本概念比较:自信息、香浓熵、微分熵、相对熵、交叉熵

信息论的基本想法是一个不太可能的事件居然发生了,要比一个非常可能的事件发生,能提供更多的信息。希望能有一种量化信息的方法,并且具备一些性质,如: • 非常可能发生的事件信息量要比较少,并且极端情况下,确保能够发生的事件 应该没有信息量。 • 较不可能发生的事件具有更高的信息量。 • 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量, 应该是投掷一次硬币正面朝上的信息...

2018-09-04 14:46:03 6647 1

原创 概率中的独立与相关:相互独立、条件独立、协方差、相关系数

概率论与数理统计学习笔记。小记变量之间的(线性)相关性,独立性。

2018-09-03 14:35:43 32228 1

原创 DBSCAN——聚类算法

DBSCAN Density-Based Spatial Clustering of Applications with Noise——基于密度的噪声下聚类算法核心定义Ε邻域:给定对象半径为Ε内的区域称为该对象的Ε邻域;核心对象:如果给定对象Ε邻域内的样本点数大于等于MinPts,则称该对象为核心对象;直接密度可达:对于样本集合D,如果样本点q在p的Ε邻域内,并且p为核心对象,那么对象q从对象p直...

2018-06-30 11:39:00 608

原创 机器学习——朴素贝叶斯法提要

机器学习——朴素贝叶斯法提要朴素贝叶斯方法相较于其他机器学习方法,原理简单,实现方便,效率较高,学术领域内常用作baseline同其他方法进行比较。理论依据贝叶斯定理 P(Bi|A)=P(Bi)P(A|Bi)∑nj=1P(Bj)P(A|Bj)P(Bi|A)=P(Bi)P(A|Bi)∑j=1nP(Bj)P(A|Bj)P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\...

2018-06-04 20:43:50 162

原创 【知识框架】优化方法基本原理:梯度下降法、牛顿法、拉格朗日对偶法

梯度下降法梯度下降法是求解无约束最优化问题的一种最常用方法,实现简单,每一步需要求解目标函数的梯度向量。牛顿法和拟牛顿法牛顿法是求解无约束最优化问题的常用方法,收敛速度快,每一步迭代需要求解目标函数的海森矩阵的逆矩阵,计算较为复杂。拟牛顿法则用正定矩阵近似海森矩阵的逆矩阵,简化了牛顿法。 海森矩阵(Hessian Matrix)是一个多元函数的二阶偏导数构成的方阵,描述...

2018-05-29 11:10:12 1642

原创 Make Good friend with GBDT——Part2 Ada Boosting

三个臭皮匠,顶个诸葛亮——BoostingAdaBoost算法的提出——1995,Freund提升方法提升方法基本思路 在概率近似正确的学习框架内,一个概念的强可学习和弱可学习是等价的——Schapire发现弱学习器比强学习器要容易得多,提升方法就是反复学习得到多个弱学习器,将其按不同权重进行组合得到一个强学习器的过程,反复学习的过程中往往需要改变数据的概...

2018-05-08 10:57:30 197

原创 Make Good friend with GBDT——Part1 决策树

Part 1 决策树带着三个问题,重读决策树章节: 1. 决策树适用的应用场景有哪些? 2. 如何得到决策树? 3. 做得更好:如何提高性能?Question 1 决策树的适用场景决策树可以用来解决分类问题和回归问题,并且有着可解释性强,分类速度快的特点。决策树同样可以用来抽取多属性特征,作为深度学习的输入。Question 2 如何得到决策树?决策树的学习分3个步骤...

2018-05-01 12:47:56 233

原创 DataX自定义transformer编写指南

DataX自定义transformer编写指南用于数据加密jave开发环境 maven Python 2.*概述DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异...

2018-04-13 19:54:52 8281

原创 【技术调研报告】DataX 离线异构数据同步框架

DataX 数据脱敏平台开发与实验 中国大陆 谨慎参考 单机 并发 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。以星型结构进行数据传输。...

2018-04-10 22:47:48 874

原创 通过简单的例子来认识和实践牛顿法

牛顿法认识与实践中文参考:[1]数学定义与推导 举例说明利用牛顿法来近似求解正数平方根 英文教学材料:[2]#include <iostream>#include <math.h>using namespace std;int LOOP_COUNTER = 0;// Square Roots by Newton's Method, ...

2018-03-24 16:29:07 2754

原创 MySQL的count查询超级慢?我是这么解决的

你可能需要给 Primary Key 加上 Uniqle 约束了问题描述数据表结构: Field Type Null Key Default Extra id int(10) unsigned NO PRI NULL auto_increment mid varchar(50) NO UNI ...

2018-03-23 21:55:47 61698 6

原创 【一道算法题】寻找N个数中重复数量大于 N/2的数

Question Suppose you’re consulting for a bank that’s concerned about fraud detection, and they come to you with the following problem. They have a collection of n bank cards that they’ve confiscated,

2017-12-28 22:48:31 1578

原创 概率图模型(PGM)-LDA 隐含狄利克雷分布学习记录

LDA贝叶斯概率模型:先验概率+观察数据 -> 后验概率LDA以其灵活地对主题的分布进行概率估计,被广泛应用于主题模型抽取之中。这里仅列举概念和读过的资料,具体内容不赘述。多种语言中已经实现过此算法。总之,这是一个好用但不好吃透的算法,最后得到的也只是近似最优解。涉及到的知识多项分布狄利克雷函数马尔科夫链:平稳转移矩阵,收敛吉布斯采样ReferenceLda数学八卦-靳志辉通俗理解 L

2017-12-06 22:24:45 1110

原创 Python 多线层协调应用举例

1. threading.Event 机制应用2. threading.Lock 防止子线层打印出错3. 再次遇到在python2.7中,中文字符串作为形参传递时出现的问题并解决。# coding:utf-8from __future__ import unicode_literalsimport threadingimport time# " 妈妈做饭,我弟吃,

2017-09-08 11:14:53 285

原创 【深入理解计算机系统01】不同层级程序指令间的转换

读 CSAPP 读书笔记与实践记录

2017-09-08 11:12:14 547

原创 C++ Primer Plus Chapter 3 Dealing with Data

C++ 读书笔记(似乎没必要记)

2017-08-09 19:08:15 360

原创 Outline of Machine Learning created by Andrew Ng on Coursera

By the time you finish this class * You’ll know how to apply the most advanced machine learning algorithms to such problems as anti-spam, image recognition, clustering, building recommender systems, a

2017-07-14 16:12:39 377

原创 离散数学知识框架小结

离散数学知识框架,教材提纲

2017-06-01 21:01:46 4041

原创 Python 方法中的参数传递

Python 方法中的参数传递Python 中的对象,可以用可变和不可变的标准来一分为二:可变对象有:list、dictionary、set等容器。当此类对象的内容发生变化时,变量的对象引用是不会变化的。不可变对象有:字符串、数字类型数据、元组等。Python中的变量存放的是对象引用,所以对于不可变对象而言,尽管对象本身不可变,但变量的对象引用是可变的。在将可变对象作为参数进行传递时,需要特别

2017-05-26 22:39:00 443

原创 网络编程初涉

套接字网络编程python socket编程异步系统

2017-05-23 16:01:51 301

原创 信息技术中数据长度表示

信息技术中数据长度表示MiB 和 MB 的区别

2017-05-05 10:50:40 1730

原创 index of Practical Software Engineering

软件工程发法学课程内容体系

2017-05-04 16:56:11 443

原创 解决:Windows 上 Python2 和 Python3 共存——无痛迁徙

解决:Windows 上 Python2和Python3共存关键是 windows 环境变量的设置,我这里用了一种很粗糙的方法,有兴趣的人可以写个设置环境变量的脚本。

2017-04-27 15:32:31 426

原创 解决:linux 下关闭连接后保持程序执行

需求描述:我想让 aria2 在我关闭 ssh 连接后继续下载。方法一:nohup {{ aria2 下载命令}} &方法二:screnn 工具方法三:jobs 查看后台作业编号bg %1disown %

2017-04-13 10:44:27 1063

原创 Python 分块多线程下载器

python 分块多线程下载器将通过 HTTP 协议传输的文件进行分块,并用多线程下载,充分利用本地带宽。* 只需要 python 2.7 , 不需要三方库。* 每个线程对应一个 http 连接* max_block_size 越大内存占用越大,影响数据能否尽早写入磁盘而不是停留在内存里。单个下载块太大会出 **MemoryError*** 经过测试:压缩文件,视频文件,音频文件没问题,

2017-04-07 16:25:43 2365

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除