自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Jin_Kwok的博客

让时间掷地有声

  • 博客(267)
  • 资源 (1)
  • 收藏
  • 关注

原创 机器学习24:《数据准备和特征工程-II》收集数据

构建数据集常用的步骤包括:收集原始数据;识别特征和标签来源;选择抽样策略;拆分数据。这些步骤在很大程度上取决于你如何构建 ML 问题。本文主要介绍——数据收集。

2023-07-05 16:25:43 2443 2

原创 机器学习23:《数据准备和特征工程-I》概述

机器学习帮助我们找到数据中的模式,然后我们用这些模式来预测新的数据点。为了获得正确的预测,我们必须构建数据集并正确地转换数据。在《数据准备和特征工程》系列文章中,笔者将重点介绍这两个关键步骤。

2023-07-05 15:25:33 235

原创 机器学习22:机器学习工程落地注意事项-II(公平-Fairness)

负责任地评估机器学习模型需要做的不仅仅是计算损失指标。在将模型投入实际应用之前,审核训练数据并评估偏见(Bias)对于预测至关重要。本文内容着眼于解读训练数据中可能存在的不同类型的人类偏见,同时提供了识别它们并评估其影响的策略。

2023-07-05 14:09:50 1243

原创 机器学习21:机器学习工程落地注意事项-I

ML 代码是现实世界 ML 生产系统的核心,但该框通常仅占整个 ML 生产系统整体代码的 5% 或更少。在实际应用中,机器学习生产系统需投入大量资源来输入数据——收集数据、验证数据并从中提取特征。此外,服务基础设施必须到位,才能将 ML 模型的预测付诸现实世界的实际应用。

2023-07-04 19:45:58 836

原创 机器学习20:嵌入-Embeddings

嵌入(Embeddings)是一个相对低维的空间,我们可以将高维向量转换到其中。嵌入使得对大型输入(例如表示单词的稀疏向量)进行机器学习变得更加容易。理想情况下,嵌入通过将语义相似的输入紧密地放置在嵌入空间中来捕获输入的一些语义。嵌入可以在模型中学习和重用。

2023-07-04 17:41:26 2336

原创 机器学习19:多类别神经网络-Multi-Class Neural Networks

在本文中,我们将研究多类分类,它可以从多种可能性中进行选择。例如:这架飞机是波音 747、空客 320、波音 777 还是巴西航空工业公司 190?这是苹果、熊、糖果、狗还是鸡蛋的图像?在现实世界中,多分类问题需要从数百万个单独的类中进行选择。例如一个可以识别几乎任何东西的图像的多类分类模型。

2023-07-04 17:01:06 1329

原创 机器学习18:训练神经网络-最佳实践

在【机器学习17】中,笔者介绍了反向传播算法。反向传播算法是神经网络最常见的训练算法。它使得梯度下降对于多层神经网络来说是可行的。 TensorFlow 可以自动处理反向传播,因此我们不需要深入了解该算法。要了解其工作原理,请阅读【机器学习17】。本文将重点解释反向传播的失败案例以及正则化神经网络的最常见方法。

2023-07-04 16:31:13 1026

原创 机器学习17:训练神经网络-反向传播算法

反向传播算法对于快速训练大型神经网络至关重要,本文将介绍算法的工作原理。

2023-07-04 14:35:17 1895

原创 机器学习16:使用 TensorFlow 进行神经网络编程练习

在【机器学习15】中,笔者介绍了神经网络的基本原理。在本篇中,我们使用 TensorFlow 来训练、验证神经网络模型,并探索不同 “层数+节点数” 对模型预测效果的影响,以便读者对神经网络模型有一个更加直观的认识。

2023-07-03 21:16:45 762

原创 机器学习15:神经网络-Neural Networks

神经网络是特征交叉的更复杂版本。本质上,神经网络会学习适当的特征组合。本文主要介绍神经网络的结构、隐藏层、激活函数等内容。

2023-07-03 15:31:17 1774

原创 机器学习14:稀疏性-Sparsity

现实世界中,问题的特征的数量往往是很大的,而其中起决定性作用的往往是很小的一部分,稀疏规则化算子的引入会学习去掉这些没有信息的特征,也就是把这些特征对应的权重置为 0。

2023-07-03 11:51:47 2507 2

原创 机器学习13: 使用 TensorFlow 进行二元分类(Binary Classification)编程实践

在【机器学习6】和【机器学习9】中,我们使用 TensorFlow 进行了“线性回归模型”和“组合特征”编程实践。本质上,其中采用的都是回归模型,也就是说,我们创建了产生浮点预测的模型,比如“这个社区的房子要花 N 千美元。” 在本篇,我们将创建并评估一个二进制分类模型。

2023-06-30 21:05:47 1207

原创 机器学习12:分类 Classification

分类(Classification)是一个有监督的学习过程,目标数据集(示例集)中具有的类别是已知的,分类过程需要做的就是把每一条记录归到对应的类别下。由于必须事先知道各个类别的信息,并且所有待分类的数据条目都默认有对应的类别,因此分类算法也有其局限性,当上述条件无法满足时,我们就需要尝试聚类(后面介绍)分析。在【机器学习11】中,笔者介绍了(Logistic Regression),它就是一种分类分析,它有正向类和负向类,即:y ∈ {0, 1},其中 0 代表负向类,1 代表正向类。

2023-06-29 11:38:15 1953

原创 机器学习11:逻辑回归-Logistic Regression

本文介绍逻辑回归-Logistic Regression

2023-06-28 21:04:13 1125

原创 机器学习10:正则化-Regularization

解读正则化(Regularization)

2023-06-28 20:25:56 1392

原创 机器学习9:使用 TensorFlow 进行特征组合编程实践

在【机器学习6】这篇文章中,笔者已经介绍过环境准备相关事项,本文对此不再赘述。本文将通过编程案例来探索特征组合(Feature Crosses)对模型训练的影响,加深对上一篇文章(机器学习8)的理解。

2023-06-28 18:23:33 1211

原创 机器学习8:特征组合-Feature Crosses

特征组合也称特征交叉(Feature Crosses),即不同类型或者不同维度特征之间的交叉组合,其主要目的是提高对复杂关系的拟合能力。在特征工程中,通常会把一阶离散特征两两组合,构成高阶组合特征。可以进行组合的特征包括离散特征和连续特征,但是连续特征需要进行一定的处理后才可以进行特征组合。为了便于理解,可以将特征组合理解为两个离散特征交叉合并,举个例子:特征 A 有 m 个类别,特征 B 有 n 个类别,则特征 A 和特征 B 的组合就是将特征 A、B 中的各个类别两两组合,其维度为 m*n。

2023-06-28 16:11:39 2814

原创 机器学习7:特征工程

在传统的软件工程中,核心是代码,然而,在机器学习项目中,重点则是特征——也就是说,开发人员优化模型的方法之一是增加和改进其输入特征。很多时候,优化特征比优化模型带来的增益要大得多。

2023-06-27 17:52:34 1684

原创 机器学习6:使用 TensorFlow 的训练线性回归模型

纸上得来终觉浅,绝知此事要躬行。前面 5 篇文章介绍了机器学习相关的部分基础知识,在本章,笔者将讲解基于 TensorFlow 实现一个简单的线性回归模型,以便增强读者对机器学习的体感。

2023-06-27 16:30:02 2909

原创 Mac 卸载 Python 步骤

Mac 下卸载 Python

2023-06-27 11:18:34 19745

原创 机器学习5:基于线性回归理解减少“损失”的方法

在上节中,笔者介绍了“损失(Loss)”的定义,在训练模型时,减少损失(Reducing Loss)是极为关键的,只有“损失”足够小的机器学习系统才有实用价值。在本节中,笔者将基于线性回归(Linear Regression)来介绍减少损失的具体方法。

2023-06-26 17:59:01 835

原创 机器学习4:基本术语

机器学习涉及很多专业术语,为了避免混淆概念,我们在学习中,首先必须统一语言:即充分理解专业术语,并采用专业术语来描述机器学习相关的内容。

2023-06-26 11:00:14 737

原创 机器学习4:监督学习

目前,在机器学习系统中,监督学习(Supervised Learning)占主导地位。由于监督学习的任务定义明确,例如识别垃圾邮件或预测降水,因此它比无监督学习具有更多潜在用例;而与强化学习相比,监督学习更好地利用历史数据。

2023-06-25 16:58:22 1041

原创 机器学习3:简介与类型

从翻译应用、商品推荐、医疗诊断到自动驾驶汽车,机器学习 (ML) 作为一种技术,都有用武之地。机器学习提供了一种解决问题、回答复杂问题以及创建新内容的新方式。机器学习可以预测天气、估算行程时间、推荐歌曲、自动补全句子、汇总文章以及生成全新的图片。从根本上来讲,机器学习是对一种软件(称为模型)进行训练的过程,用于进行实用的或生成内容。

2023-06-25 15:49:36 630

原创 机器学习2:问题构建及框架化

机器学习作为一种解决方案,并不是“万金油”,它只适用于一些特定的场景即通过分析问题以隔离需要解决的各个元素的过程。问题构建有助于确定项目的技术可行性,并提供一组明确的目标和成功标准。在考虑机器学习解决方案时,有效的问题构建可以确定你的产品最终是否成功。

2023-06-20 18:08:47 1463

原创 jetbrains(IDEA/PyCharm)官网地址打不开

@TOCjetbrains(IDEA/PyCharm)官网地址打不开今天新换了Mac Pro M1,准备重新下载 IDEA 并安装,却发现IDEA 官网下载地址 根本打不开,于是我又尝试下载 PyCharm ,同样打不开。考虑到两个 IDE 的开发商相同,初步判断是某种配置问题。1.官网地址IDEA:https://www.jetbrains.com/idea/download/#section=mac;PyCharm:https://www.jetbrains.com/pycharm/down

2022-01-25 19:16:26 6460 2

原创 一文解读exports、module.exports 和 export、export default

对于前端初学者来说,exports、module.exports 和 export、export default 容易让人产生误解,笔者顺便写篇文章解读一下。第一部分:exports 和 module.exports为了让Node.js的文件可以相互调用,Node.js提供了一个简单的模块系统。模块是Node.js 应用程序的基本组成部分,文件和模块是一一对应的。换言之,一个 Node.js 文件就是一个模块,这个文件可能是JavaScript 代码、JSON 或者编译过的C/C++ 扩展。1. .

2021-08-16 17:53:32 9591

原创 JavaScript的发展史及其应用领域

1.JavaScript发展史1.1 Nombas 和 ScriptEase大概在 1992 年,一家称作 Nombas 的公司开发了一种叫做 C 减减(C-minus-minus,简称 Cmm)的嵌入式脚本语言。Cmm背后的理念很简单:一个足够强大可以替代宏操作(macro)的脚本语言,同时保持与 C (和 C ++)足够的相似性,以便开发人员能很快学会。这个脚本语言捆绑在一个叫做 CEnvi 的共享软件中,它首次向开发人员展示了这种语言的威力。Nombas 最终把 Cmm 的名字改成了 Scrip

2021-08-11 22:16:18 1870 1

转载 JavaScript,ECMAScript,TypeScript,NodeJS,CommonJS,React Native之间是什么关系?

JavaScript,ECMAScript,TypeScript,NodeJS,CommonJS,React Native之间是什么关系?最近准备学习一下前端开发相关的知识,看了一些文章,这里直接引用一下(原著:Amber_Bao)参考文献https://blog.csdn.net/luoluobaby/article/details/103631021...

2021-08-11 21:08:31 312

原创 Spring容器中的Bean是否会被GC呢?

Spring容器中的Bean是否会被GC呢?最近经常被校招新同学问到这个问题,顺便写个文档。

2021-08-06 17:42:07 3080 5

转载 事务消息原理

事务消息原理引言:在工作中经常会使用事务消息,之前也写过消息队列相关的系列文章《分布式中间件实践之路》,时间久了,很多细节逐渐变得模糊,鉴于此,是时候写点东西强化记忆了。1.使用场景事务消息适用于所有对数据最终一致性有强需求的场景。本文基于消息队列RocketMQ展开介绍。2.基本概念事务消息:消息队列RocketMQ版提供类似X或Open XA的分布式事务功能,通过消息队列RocketMQ版事务消息能达到分布式事务的最终一致。 半事务消息:暂不能投递的消息,发送方已经成功地将消.

2021-04-07 21:34:24 850

原创 Mac下将Python源码打包成可执行程序(基于py2applet)

1、安装py2app打开终端,执行命令:pip install py2app2、创建存储文件夹自选一个目录位置,创建一个文件夹,命名xxx(如app),用于存放待打包的源代码、相关配置文件、及最终的打包结果。3.源代码准备将待打包的源代码复制到步骤2中的文件夹4、生成配置文件入终端,切路径至步骤2中的xxx文件夹下,执行命令,生成配置文件。如下命令,其中app.py 为待打包的源代码文件,读者替换成自己的文件名即可。py2applet --make-setup .

2021-02-15 21:55:03 7112 7

原创 GIT 命令统计代码行数

GIT 命令统计代码行数1.统计指定时间段内的新增/删除代码行数git log --since=2020-01-01 --until=2021-01-01 --format='%aN' | sort -u | while read name; do echo -en "$name\t"; git log --author="$name" --pretty=tformat: --numstat | grep "\(.html\|.java\|.xml\|.properties\)$" | awk .

2020-12-29 15:58:15 1680

原创 主题 12:实践案例集锦之兜底方案设计

1. 引言 惟事事,乃其有备,有备无患——《尚书·说命中》在《主题 02:如何设计系统预案?》一文中,笔者以三个 W(什么是预案?为什么要做预案?如何设计预案?)为主线展开,介绍了系统预案相关的内容。预案的本质是为系统稳定性服务的。换句话说,设计预案的前提一定是系统的稳定性存在风险,且一旦风险发生,所导致的结果将难以接受。在实践中,很多工程师倾向于系统的功能性建设,而忽视那些影响系统稳...

2020-10-28 16:10:15 958

原创 主题 12:实践案例集锦之设计理念

1. 引言 古语云:道为术之灵,术为道之体;以道统术,以术得道。其中:“道”指“规律、道理、理论”,“术”指“方法、技巧、技术”。意思是:“道”是“术”的灵魂,“术”是“道”的肉体;可以用“道”来统管“术”,也可以从“术”中获得“道”。工匠追求“术”到极致,其实就是在寻“道”,且离悟“道”也就不远了,亦或是已经得道,这就是“工匠精神”——一种追求“以术得道”的精神。如果一个工匠只满足于“...

2020-10-28 16:10:15 752

原创 主题 12:实践案例集锦之模型抽象

1. 引言模型是一种将事物形象化的有效手段,利用模型可将现实世界中的事物及事物之间的关系准确地表达出来。模型设计本质上就是系统地实施抽象的过程。很多时候,工程师面对的需求都是以具象的现实世界事物概念来描述的,遵循的是人类世界的语境。为了将需求落地,工程师需要开展一系列的工作,其中模型设计尤为重要。模型设计的过程是一个从整体到局部、从高层模型设计到细节逐步细化的过程。在《主题 03:如何设计模型...

2020-10-28 16:10:14 1054

原创 主题 11:如何打造能力护城河

1. 引言 经历的风浪多了,目所及,风轻云淡;踩过的坑多了,行所至,皆为平地——SL Ying神州大地的互联网行业,加班对工程师来说已是家常便饭,同时互联网领域技术又日新月异,很多工程师都疲于应付,以至于长期以来流传一个很广的误解:35 岁是码农的终点。如何在繁忙的工作中做好积累,构建个人核心竞争力,相信是很多工程师同行都在思考的问题。在互联网领域,中年危机是绕不开的话题,为何会有中年...

2020-10-28 16:10:13 821

原创 主题 12:实践案例集锦之接口设计

1. 引言API 是模块或者子系统之间交互的桥梁,好的系统架构离不开好的 API 设计。在《主题 1:如何设计一个好的 API》一文中,笔者解读了什么样的 API 设计是好的设计,本文作为 API 设计话题的延续,将介绍如何在设计中实践之前介绍的设计方法论。 成功的系统不是有一些特别闪光的地方,而是设计时点点滴滴的努力积累起来的。API 设计面临的挑战千差万别,没有一种普适性的原则可以...

2020-10-28 16:10:13 804

原创 主题 04:如何设计一个复杂的系统(下)

1. 引言设计复杂系统的能力是高阶工程师的必备能力,设计出完备、健壮、优雅、前瞻的系统是工程师的不懈追求。在上一篇文章中,笔者介绍了设计一个复杂系统的第一步:深入理解业务。本文作为《如何设计一个复杂的系统》主题的延续,将从技术的角度出发带领读者掌握系统设计的思考框架和方法论(通俗地说,就是系统设计的套路)。2. 系统设计简述回顾自己在过往职业生涯所经历的项目,在做系统设计的时候都会按照一个套...

2020-10-28 16:10:12 600

原创 主题 09:如何画好系统设计图

1. 引言系统架构图是为了具象地呈现软件系统的整体轮廓、各个组件之间的相互关系和约束边界,以及物理部署和演进方向的整体视图。软件架构图是一种非常好的表达方式,一图胜千言,在项目评审、内部交流、方案归档以及晋升答辩中,好的系统架构图大有裨益。系统架构图虽好,但也不可滥用。在互联网领域,对于一个较为复杂的软件系统,由于业务迭代频繁,通过创建和维护系统设计图来提供准确且有价值的内容并非易事。很多时候...

2020-10-28 16:10:12 2170

SimHei-config.zip

SimHei.ttf 字体文件,适用于Mac OX,Linux等系统平台。特别适用于 matplotlib 绘图中文标签报错的问题

2020-05-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除