- 博客(31)
- 资源 (2)
- 收藏
- 关注
原创 it信息技术草稿
信息技术介绍信息技术行业组成相关职位深度学习中的泛化之谜如下:为什么使用梯度下降 (GD) 训练的过度参数化神经网络在真实数据集上泛化得很好,即使它们能够拟合大小相当的随机数据集?此外,在所有适合训练数据的解决方案中,GD 如何找到一个泛化良好的解决方案(当存在这样一个泛化良好的解决方案时)?我们认为这两个问题的答案在于训练期间不同示例的梯度的相互作用。直观地说,如果每个示例的梯度是良好对齐的,也就是说,如果它们是连贯的,那么人们可能会期望 GD 是(算法上)稳定的,...
2022-03-23 11:51:30 1676
原创 一文详解RNN及股票预测实战(Python)
循环神经网络(RNN)是基于序列数据(如语言、语音、时间序列)的递归性质而设计的,是一种反馈类型的神经网络,其结构包含环和自重复,因此被称为“循环”。它专门用于处理序列数据,如逐字生成文本或预测时间序列数据(例如股票价格)。一、 RNN 网络类型RNN以输入数m对应输出数n的不同,可以划分为5种基础结构类型:(1)one to one:其实和全连接神经网络并没有什么区别,这一类别算不上 RNN。(2)one to many:输入不是序列,输出是序列。可用于按主题生成文章或音乐等。(3)many
2021-12-01 21:13:39 2896 3
原创 逻辑回归优化技巧总结(全)
逻辑回归由于其简单高效、易于解释,是工业应用最为广泛的模型之一,比如用于金融风控领域的评分卡、互联网的推荐系统。上文总结了逻辑回归的原理及其实现【全面解析并实现逻辑回归(Python)】本文从实际应用出发,以特征衍生、特征表示、特征选择、优化算法、模型优化及评估的方面,剖析逻辑回归(LR)优化的要点。一、特征生成逻辑回归是简单的广义线性模型,模型的拟合能力很有限,无法学习到特征间交互的非线性信息:一个经典的示例是LR无法正确分类非线性的XOR数据,而通过引入非线性的特征(特征生成),可在更高维特征.
2021-11-25 20:23:57 4706
原创 全面解析并实现逻辑回归(Python)
本文以模型、学习目标、优化算法的角度解析逻辑回归(LR)模型,并以Python从头实现LR训练及预测。一、逻辑回归模型结构逻辑回归是一种广义线性的分类模型且其模型结构可以视为单层的神经网络,由一层输入层、一层仅带有一个sigmoid激活函数的神经元的输出层组成,而无隐藏层。其模型的功能可以简化成两步,“通过模型权重[w]对输入特征[x]线性求和+sigmoid激活输出概率”。具体来说,我们输入数据特征x,乘以一一对应的模型权重w后求和,通过输出层神经元激活函数σ(sigmoid函数)将(wx + b.
2021-11-20 19:04:59 2707
原创 一文深度解读模型评估方法
我们训练学习好的模型,通过客观地评估模型性能,才能更好实际运用决策。模型评估主要有:预测误差情况、拟合程度、模型稳定性等方面。还有一些场景对于模型预测速度(吞吐量)、计算资源耗用量、可解释性等也会有要求,这里不做展开。一、评估预测误差情况机器学习模型预测误差情况通常是评估的重点,它不仅仅是学习过程中对训练数据有良好的学习预测能力,根本上在于要对新数据能有很好的预测能力(泛化能力),所以我们常通过测试集的指标表现评估模型的泛化性能。评估模型的预测误差常用损失函数作为指标来判断,如回归预测的均方损失。但除
2021-11-17 15:22:09 3034
原创 一文深度学习建模预测全流程(Python)
本文详细地梳理及实现了深度学习模型构建及预测的全流程,代码示例基于python及神经网络库keras,通过设计一个深度神经网络模型做波士顿房价预测。主要依赖的Python库有:keras、scikit-learn、pandas、tensorflow(建议可以安装下anaconda包,自带有常用的python库)一、基础介绍机器学习机器学习的核心是通过模型从数据中学习并利用经验去决策。进一步的,机器学习一般可以概括为:从数据出发,选择某种模型,通过优化算法更新模型的参数值,使任务的指标表现变好(学习
2021-11-13 13:07:19 5825 1
原创 一文概览神经网络优化算法
一、机器学习的优化机器学习的优化(目标),简单来说是:搜索模型的一组参数 w,它能显著地降低代价函数 J(w),该代价函数通常包括整个训练集上的性能评估(经验风险)和额外的正则化(结构风险)。机器学习的优化与传统优化不同,不是简单地根据数据的求解最优解,在大多数机器学习问题中,我们关注的是测试上性能度量P的优化。然而对于模型测试集是未知,我们只能通过优化训练集的性能度量P_train,在独立同分布基础假设下,期望测试集也有较好的性能(泛化效果),这意味并不是一味追求训练集的最优解。另外,有些情况性
2021-11-05 15:54:34 1113
原创 一文深层解决模型过拟合
一、过拟合的本质及现象过拟合是指模型只过分地匹配特定训练数据集,以至于对训练集外数据无良好地拟合及预测。其本质原因是模型从训练数据中学习到了一些统计噪声,即这部分信息仅是局部数据的统计规律,该信息没有代表性,在训练集上虽然效果很好,但未知的数据集(测试集)并不适用。1.1 拟合效果的评估方式通常由训练误差及测试误差(泛化误差)评估模型的学习程度及泛化能力。欠拟合时训练误差和测试误差在均较高,随着训练时间及模型复杂度的增加而下降。在到达一个拟合最优的临界点之后,训练误差下降,测试误差上升,这个时候就
2021-11-03 16:07:33 1027
原创 神经网络学习到的是什么?(Python)
神经网络(深度学习)学习到的是什么?一个含糊的回答是,学习到的是数据的本质规律。但具体这本质规律究竟是什么呢?要回答这个问题,我们可以从神经网络的原理开始了解。一、 神经网络的原理神经网络学习就是一种特征的表示学习,把原始数据通过一些简单非线性的转换成为更高层次的、更加抽象的特征表达。深度网络层功能类似于“生成特征”,而宽度层类似于“记忆特征”,增加网络深度可以获得更抽象、高层次的特征,增加网络宽度可以交互出更丰富的特征。通过足够多的转换组合的特征,非常复杂的函数也可以被模型学习好。可见神经网络学习
2021-10-28 19:44:10 641
原创 一文全览神经网络模型
一、神经网络类别一般的,神经网络模型基本结构按信息输入是否反馈,可以分为两种:前馈神经网络和反馈神经网络。1.1 前馈神经网络前馈神经网络(Feedforward Neural Network)中,信息从输入层开始输入,每层的神经元接收前一级输入,并输出到下一级,直至输出层。整个网络信息输入传输中无反馈(循环)。即任何层的输出都不会影响同级层,可用一个有向无环图表示。常见的前馈神经网络包括卷积神经网络(CNN)、全连接神经网络(FCN)、生成对抗网络(GAN)等。1.2 反馈神经网络反馈神经网
2021-10-20 21:26:53 6966
原创 神经网络拟合能力的提升之路(Pyhton)
本文侧重于模型拟合能力的探讨。过拟合及泛化能力方面下期文章会专题讨论。原理上讲,神经网络模型的训练过程其实就是拟合一个数据分布(x)可以映射到输出(y)的数学函数 f(x),而拟合效果的好坏取决于数据及模型。那对于如何提升拟合能力呢?我们首先从著名的单层神经网络为啥拟合不了XOR函数说起。一、单层神经网络的缺陷单层神经网络如逻辑回归、感知器等模型,本质上都属于广义线性分类器(决策边界为线性)。这点可以从逻辑回归模型的决策函数看出,决策函数Y=sigmoid(wx + b),当wx+b>0,.
2021-10-15 14:32:19 1281
原创 一文概括样本不均衡的方法(python)
数据、算法、算力是人工智能发展的三要素。数据决定了Ai模型学习的上限,数据规模越大、质量越高,模型就能够拥有更好的泛化能力。然而在实际工程中,经常有数据量太少(相对模型而言)、样本不均衡、很难覆盖全部的场景等问题,解决这类问题的一个有效途径是通过数据增强(Data Augmentation),使模型学习获得较好的泛化性能。1 数据增强介绍数据增强(Data Augmentation)是在不实质性的增加数据的情况下,从原始数据加工出更多的表示,提高原数据的数量及质量,以接近于更多数据量产生的价值。其原理
2021-10-14 19:51:39 503
原创 一文讲透神经网络的激活函数
为什么要激活函数?原理上来说,神经网络模型的训练过程其实就是拟合一个数据分布(x)可以映射到输出(y)的数学函数,即 y= f(x)。拟合效果的好坏取决于数据质量及模型的结构,像逻辑回归、感知机等线性模型的拟合能力是有限的,连xor函数都拟合不了,那神经网络模型结构中提升拟合能力的关键是什么呢?搬出神经网络的万能近似定理可知,“一个前馈神经网络如果具有线性输出层和至少一层具有任何一种‘‘挤压’’ 性质的激活函数的隐藏层,只要给予网络足够数量的隐藏单元,它可以以任意的精度来近似任何从一个有限维空间到另
2021-10-12 14:47:06 1523
原创 神经元谈到深度神经网络
序列文章 上文[《一文速览机器学习的类别(Python代码)》](https://www.jianshu.com/p/fbe59dc46907) 提到逻辑回归并做了简单介绍。本文将从神经元到逻辑回归模型结构,并将其扩展到深度深度网络模型。一、谈谈智慧对于人类智慧奥秘的探索,不同时代、学科背景的人对于智慧的理解及其实现方法有着不同的思想主张。有的主张用显式逻辑体系搭建人工智能系统,即符号主义。有的主张用数学模型模拟大脑组成以实现智慧,即联结主义,这也就是我们本文讨论的方向。那大脑为什么能够思考?科学家
2021-10-08 11:02:41 507
原创 Python人工智能学习路线(长篇干货)
本文篇幅较长,干货较多,建议收藏慢慢看。谈到人工智能(AI)算法,常见不外乎有两方面信息:铺天盖地各种媒体提到的高薪就业【贩卖课程】、知乎上热门的算法岗“水深火热 灰飞烟灭”的梗【贩卖焦虑】。其实,这两方面都是存在的,但都很片面,这里不加赘述。客观地说,数字化、智能化是人类社会发展的趋势,而当下人工智能无疑是一大热门,那是蓝海还是火海?我们回到老道理—水的深度,只有你自己去试试水才知道。当你对上面情况有了初步的了解并想试试水,需要面对的问题是:AI入门容易吗?答案其实是否定的,难!AI领域需要.
2021-10-05 20:10:26 3084 1
原创 一文全览机器学习建模流程(Python代码)
注:本文基于之前的文章做了些修改,重复部分可以跳过看。示例的项目为基于LR模型对癌细胞分类的任务。随着人工智能时代的到来,机器学习已成为解决问题的关键工具。我们接下来会详细介绍机器学习如何应用到实际问题,并概括机器学习应用的一般流程。1.1 明确问题明确业务问题是机器学习的先决条件,即抽象出该问题为机器学习的预测问题:需要学习什么样的数据作为输入,目标是得到什么样的模型做决策作为输出。一个简单的新闻分类的场景,就是学习已有的新闻及其类别标签数据,得到一个文本分类模型,通过模型对每天新的新闻做类.
2021-08-19 18:45:33 2068
原创 一文速览机器学习的类别(Python代码)
序列文章:上一篇 《白话机器学习概念》一、 机器学习类别机器学习按照学习数据经验的不同,即训练数据的标签信息的差异,可以分为监督学习(supervised learning)、非监督学习(unsupervised learning)、半监督学习(semi- supervised learning)和强化学习(reinforcement learning)。1.1 监督学习监督学习是机器学习中应用最广泛及成熟的,它是从有标签的数据样本(x,y)中,学习如何关联x到正确的y。这过程就像是模型在给
2021-08-06 16:29:02 244
原创 异常检测算法速览(Python代码)
一、异常检测简介异常检测是通过数据挖掘方法发现与数据集分布不一致的异常数据,也被称为离群点、异常值检测等等。1.1 异常检测适用的场景异常检测算法适用的场景特点有:(1)无标签或者类别极不均衡;(2)异常数据跟样本中大多数数据的差异性较大;(3)异常数据在总体数据样本中所占的比例很低。 常见的应用案例如:金融领域:从金融数据中识别”欺诈用户“,如识别信用卡申请欺诈、信用卡盗刷、信贷欺诈等;安全领域:判断流量数据波动以及是否受到攻击等等;电商领域:从交易等数据中识别”恶意买家“,如羊毛党、恶
2021-08-03 15:48:13 1257
原创 一篇白话机器学习概念
前言:应出版社约稿,计划出个机器学习及深度学习通俗序列文章,不足之处还请多提建议。4.1 机器学习简介机器学习看似高深的术语,其实就在生活中,古语有云:“一叶落而知天下秋”,意思是从一片树叶的凋落,就可以知道秋天将要到来。这其中蕴含了朴素的机器学习的思想,揭示了可以通过学习对“落叶”特征的经验,预判秋天的到来。机器学习作为人工智能领域的核心组成,是非显式的计算机程序学习数据经验以优化自身算法,以学习处理任务的过程。一个经典的机器学习的定义是:A computer program is said.
2021-08-03 15:45:01 438
原创 分布式机器学习原理及实战(Pyspark)
一、大数据框架及Spark介绍1.1 大数据框架大数据(Big Data)是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。自2003年Google公布了3篇大数据奠基性论文,为大数据存储及分布式处理的核心问题提供了思路:非结构化文件分布式存储(GFS)、分布式计算(MapReduce)及结构化数据存储(BigTable),并奠定了现代大数据技术的理论基础,而后大数据技术便快速发展,诞生了很多日新月异的技术。
2021-06-07 21:28:38 3147 3
原创 一文述说人工智能(AI)发展史,几经沉浮!
本文从介绍人工智能及主要的思想派系,进一步系统地梳理了其发展历程、标志性成果并侧重其算法思想介绍,将这段 60余年几经沉浮的历史,以一个清晰的脉络呈现出来,以此展望人工智能(AI)未来的趋势。
2021-05-26 22:05:02 14067
原创 Python数据分析指南(全)
前言数据分析是通过明确分析目的,梳理并确定分析逻辑,针对性的收集、整理数据,并采用统计、挖掘技术分析,提取有用信息和展示结论的过程,是数据科学领域的核心技能。本文从数据分析常用逻辑框架及技术方法出发,结合python项目实战全面解读数据分析,可以系统掌握数据分析的框架套路,快速上手数据分析。一、 数据分析的逻辑(方法论)1.1 PEST分析法PEST分析是指宏观环境的分析,宏观环境是指影响一切行业或企业的各种宏观力量。P是政治(Politics),E是经济(Economy),S是社会(So
2021-03-26 16:11:40 915
原创 一文归纳Ai调参炼丹之法
1 超参数优化调参即超参数优化,是指从超参数空间中选择一组合适的超参数,以权衡好模型的偏差(bias)和方差(variance),从而提高模型效果及性能。常用的调参方法有:人工手动调参网格/随机搜索(Grid / Random Search)贝叶斯优化(Bayesian Optimization)注:超参数 vs 模型参数差异超参数是控制模型学习过程的(如网络层数、学习率);模型参数是通过模型训练学习后得到的(如网络最终学习到的权重值)。2 人工调参手动调参需要结合数据情况
2021-03-19 15:31:03 2668 3
原创 一文归纳Ai数据增强之法
数据、算法、算力是人工智能发展的三要素。数据决定了Ai模型学习的上限,数据规模越大、质量越高,模型就能够拥有更好的泛化能力。然而在实际工程中,经常有数据量太少(相对模型而言)、样本不均衡、很难覆盖全部的场景等问题,解决这类问题的一个有效途径是通过数据增强(Data Augmentation),使模型学习获得较好的泛化性能。1 数据增强介绍数据增强(Data Augmentation)是在不实质性的增加数据的情况下,从原始数据加工出更多的表示,提高原数据的数量及质量,以接近于更多数据量产生的价值。其原理
2021-03-17 20:37:33 1135
原创 程序员面试完全指南
春季是求职的黄金时期,借这时机分享下程序员面试相关的感悟。本文立意不仅于面试技巧,而贵在通过梳理面试过程,帮助大家系统地完善技能树,找到更有发展前景的工作平台。一场完整的面试通常包括:简历准备、笔试(或无)、面试。1 简历准备好的简历,就已经成功了一半。简历的重要性不仅在展现个人形象,通常还会主导整场面试。 面对海量的求职简历,面试官通常没有过多时间准备针对性的面试问题,这时简历就起着面试 “发言稿” 的作用。一份优秀的简历,主要从两个方面:简历排版及内容。1.1 简历排版 --层次感、突出重点
2021-02-26 15:24:34 565
原创 Python机器学习特征选择(完全版)
1 特征选择的目的机器学习中特征选择是一个重要步骤,以筛选出显著特征、摒弃非显著特征。这样做的作用是:减少特征(避免维度灾难),提高训练速度,降低运算开销;减少干扰噪声,降低过拟合风险,提升模型效果;更少的特征,模型可解释性更好;2 特征选择方法特征选择方法一般分为三类:2.1 过滤法–特征选择通过计算特征的缺失率、发散性、相关性、信息量、稳定性等指标对各个特征进行评估选择,常用如缺失情况、单值率、方差验证、pearson相关系数、chi2卡方检验、IV值、信息增益及PSI等方法。
2021-02-04 09:30:22 3784 1
原创 Python机器学习算法入门指南(全)
前言机器学习 作为人工智能领域的核心组成,是计算机程序学习数据经验以优化自身算法,并产生相应的“智能化的”建议与决策的过程。一个经典的机器学习的定义是:A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, impro
2021-02-03 19:21:56 2198 1
原创 程序员说模型过拟合的时候,说的是什么?
前言机器学习中,模型的拟合效果意味着对新数据的预测能力的强弱(泛化能力)。而程序员评价模型拟合效果时,常说“过拟合”及“欠拟合”,那究竟什么是过/欠拟合呢?什么指标可以判断拟合效果?以及如何优化?欠拟合&过拟合的概念注:在机器学习或人工神经网络中,过拟合与欠拟合有时也被称为“过训练”和“欠训练”,本文不做术语差异上的专业区分。欠拟合是指相较于数据而言,模型参数过少或者模型结构过于简单,以至于无法学习到数据中的规律。过拟合是指模型只过分地匹配特定数据集,以至于对其他数据无良好地拟合及预测。其
2020-07-23 23:20:40 463
原创 正则表达式用法(常用匹配,非贪婪,修饰符,re库函数)
在线正则表达式测试:http://tool.oschina.net/regex/#1、常用的匹配规则总结:模式 描述\w 匹配字母数字及下划线\W 匹配非字母数字及下划线\s 匹配任意空白字符,等价于 [\t\n\r\f].\S 匹配任意非空字符\d 匹配任意数字,等价于 [0-9]\D 匹配任意非数字\A 匹配字符串开始\Z 匹配字符串结束,如果是存...
2018-04-21 17:38:41 778
原创 浅谈装饰器
装饰器的原理@make_bolddef get_content(): return 'hello world'# 上面的代码等价于下面的def get_content(): return 'hello world'get_content = make_bold(get_content)
2018-04-17 10:39:50 153
原创 Python迭代器,生成器详解
本质上,生成器也是一种迭代器。但生成器只能迭代一次,因为值是在迭代过程生成,而所有的值没有保存在内存。这里先介绍下迭代器的概念,迭代器分为3部分: 可迭代对象: python中的任意对象,只要它定义了可以返回一个迭代器iter方法,或者支持下标索引的getitem方法,那它就是一个可迭代对象。简单来说可迭代对象就是可以提供迭代器的任意对象。迭代器: python中的任意对象有next方法...
2018-04-13 16:41:38 198
少儿编程教程scratch
2018-04-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人