AI路上的小白
码龄7年
关注
提问 私信
  • 博客:177,363
    社区:1
    177,364
    总访问量
  • 68
    原创
  • 1,612,657
    排名
  • 82
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2017-06-14
博客简介:

cengjing12的博客

查看详细资料
个人成就
  • 获得213次点赞
  • 内容获得30次评论
  • 获得887次收藏
  • 代码片获得227次分享
创作历程
  • 1篇
    2021年
  • 70篇
    2020年
成就勋章
TA的专栏
  • 常用小技巧
    1篇
  • 计算机视觉
    13篇
  • 机器学习面试
    18篇
  • 机器学习白板推导
    36篇
兴趣领域 设置
  • 数据结构与算法
    排序算法推荐算法
  • 人工智能
    opencvcaffetensorflowmxnetpytorchnlpscikit-learn聚类集成学习迁移学习分类回归
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

176人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

pycharm创建默认文件头

我的pycharm设置成中文了,第一步:File(文件) ->Settings(设置)第二步:Editor (编辑器)-> File and Code Templates(文件和代码模板) -> Python Script,复制下面的内容后,不要忘记勾选上启用代码模板。#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : ${DATE} ${TIME}# @Author : Your
原创
发布博客 2021.03.16 ·
308 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

OSError: cannot write mode RGBA as JPEG

做项目进行图像预处理时,出现:OSError: cannot write mode RGBA as JPEG原因:RGBA意思是红色,绿色,蓝色,Alpha的色彩空间,Alpha指透明度。而JPG不支持透明度,所以要么丢弃Alpha,要么保存为.png文件。丢弃Alpha#coding=utf-8import os #打开文件时需要from PIL import Imageclass convert2RGB(): def __init__(self,path): #图
原创
发布博客 2020.11.25 ·
826 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

偏差与方差

偏差方差看似很简单,但真要彻底地说明白,却有一定难度。比如,为什么KNN算法在增大k时,偏差会变大,但RF增大树的数目时偏差却保持不变,GBDT在增大树的数目时偏差却又能变小。1 深入理解偏差与方差1.1 引子假设我们有一个回归问题,有训练数据DDD,然后选择了一个模型MMM,并用数据DDD将MMM训练出来,记作MtM_tMt​,这里我们故意把模型MMM与训练出的模型MtM_tMt​区分开,是为了后面叙述时概念上的清晰。现在,我们怎么评价这个模型的好坏呢?你可能会不屑地说,这么简单的问题还用问吗,当
原创
发布博客 2020.11.21 ·
1156 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

P、NP、NPC和NP-Hard相关概念

1、基本概率在了解以上各类问题时,需要清楚几个概念:多项式、时间复杂度…1.1 多项式形如 Pn(x)=a(n)xn+a(n−1)x(n−1)+…+a(1)x+a(0)Pn(x)=a(n)x^n+a(n-1)x^(n-1)+…+a(1)x+a(0)Pn(x)=a(n)xn+a(n−1)x(n−1)+…+a(1)x+a(0)的函数,叫做多项式函数1.2 时间复杂度时间复杂度是一个函数,它定性描述了该算法的运行时间,探讨的是当输入值接近无穷时,算法所需工作量的变化快慢程度。需注意,时间复杂度并不是.
原创
发布博客 2020.11.21 ·
2318 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

朴素贝叶斯算法(Naive Bayes)

1 朴素贝叶斯是什么朴素贝叶斯法(Naive Bayes)是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入 x,利用贝叶斯定理求出后验概率最大的输出y。朴素贝叶斯是基于概率论的分类算法。1.1 先验概率先验概率(prior probability)是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现.1.2 条件概率条件概率是指在事件 Y=yY=yY=y 已经
原创
发布博客 2020.11.20 ·
1138 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

启发式算法

定义启发式算法(heuristic algorithm)是相对于最优化算法提出的。一个问题的最优算法求得该问题每个实例的最优解。启发式算法可以这样定义:一个基于直观或经验构造的算法,在可接受的花费(指计算时间和空间)下给出待解决组合优化问题每一个实例的一个可行解,该可行解与最优解的偏离程度一般不能被预计。现阶段,启发式算法以仿自然体算法为主,主要有蚁群算法、模拟退火法、神经网络等。发展启发式算法的计算量都比较大,所以启发式算法伴随着计算机技术的发展,取得了巨大的成就。40年代:由于实际需要,提出了
原创
发布博客 2020.11.20 ·
31204 阅读 ·
25 点赞 ·
3 评论 ·
135 收藏

生成模型与判别模型

1、定义从概率分布的角度考虑,对于一堆样本数据,每个均有特征XiX_iXi​对应分类标记yiy_iyi​。生成模型:学习得到联合概率分布P(x,y),即特征x和标记y共同出现的概率,然后求条件概率分布。能够学习到数据生成的机制。(生成模型就是要学习x和y的联合概率分布P(x,y)P(x,y)P(x,y),然后根据贝叶斯公式来求得条件概率P(y∣x)P(y|x)P(y∣x),预测条件概率最大的y)判别模型:学习得到条件概率分布P(y|x),即在特征x出现的情况下标记y出现的概率。(判别模型就是直接学习条
原创
发布博客 2020.11.20 ·
2882 阅读 ·
2 点赞 ·
3 评论 ·
16 收藏

DBSCAN密度聚类算法

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种很典型的密度聚类算法,和K-Means,BIRCH这些一般只适用于凸样本集的聚类相比,DBSCAN既可以适用于凸样本集,也可以适用于非凸样本集。下面我们就对DBSCAN算法的原理做一个总结。1. 密度聚类原理DBSCAN是一种基于密度的聚类算法,这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本,他们之间的紧密相
原创
发布博客 2020.11.15 ·
534 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

K-Means聚类算法原理及其优化

K-Means算法是无监督的聚类算法,它实现起来比较简单,聚类效果也不错,因此应用很广泛。K-Means算法有大量的变体,本文就从最传统的K-Means算法讲起,在其基础上讲述K-Means的优化变体方法。包括初始化优化K-Means++, 距离计算优化elkan K-Means算法和大数据情况下的优化Mini Batch K-Means算法。1. K-Means原理初探K-Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间
原创
发布博客 2020.11.15 ·
1231 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

主成分分析PCA

主成分分析(Principal components analysis,以下简称PCA)是最重要的降维方法之一。在数据压缩消除冗余和数据噪音消除等领域都有广泛的应用。一般我们提到降维最容易想到的算法就是PCA,下面我们就对PCA的原理做一个总结。1. PCA的思想PCA顾名思义,就是找出数据里最主要的方面,用数据里最主要的方面来代替原始数据。具体的,假如我们的数据集是nnn维的,共有mmm个数据(x(1),x(2),...,x(m))(x^{(1)},x^{(2)},...,x^{(m)})(x(1),
原创
发布博客 2020.11.15 ·
295 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

逻辑回归

参考: 逻辑回归理解及代码实现.
转载
发布博客 2020.11.14 ·
95 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Boosting提升算法之XGBoost

XGBoost算法是面试过程中经常会被问到模型,下面对相关的问题进行了整理,对于算法原理部分可以参考:https://www.cnblogs.com/pinard/p/10979808.html1、介绍一下XGBoost的原理XGBoost是基于GBDT的一种算法或者说工程实现。GBDT是一种基于boosting集成思想的加法模型,训练时采用前向分布算法进行贪婪的学习,每次迭代都学习一棵CART树来拟合之前 t-1 棵树的预测结果与训练样本真实值的残差。XGBoost的基本思想和GBDT相同,但是做
原创
发布博客 2020.11.14 ·
494 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Boosting提升算法之AdaBoost

Boosting提升算法Boosting算法是将“弱学习算法“提升为“强学习算法”的过程,主要思想是“三个臭皮匠顶个诸葛亮”。一般来说,找到弱学习算法要相对容易一些,然后通过反复学习得到一系列弱分类器,组合这些弱分类器得到一个强分类器。Boosting算法要涉及到两个部分,加法模型和前向分步算法。加法模型就是说强分类器由一系列弱分类器线性相加而成。一般组合形式如下:FM(x;P)=∑m=1nβmh(x;am)F _ { M } ( x ; P ) = \sum _ { m = 1 } ^ { n
原创
发布博客 2020.11.14 ·
391 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Boosting提升算法之GBDT

GBDT也是集成学习Boosting家族的成员,但是却和传统的Adaboost有很大的不同。回顾下Adaboost,我们是利用前一轮迭代弱学习器的误差率来更新训练集的权重,这样一轮轮的迭代下去。GBDT也是迭代,使用了前向分布算法,但是弱学习器限定了只能使用CART回归树模型,同时迭代思路和Adaboost也有所不同。在GBDT的迭代中,假设我们前一轮迭代得到的强学习器是ft−1(x)f_{t−1}(x)ft−1​(x), 损失函数是L(y,ft−1(x))L(y,f_{t−1}(x))L(y,ft−1​
原创
发布博客 2020.11.14 ·
419 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Bagging与随机森林

下图是基于树的算法的发展历程1、BaggingBagging [Breiman, 1996a] 是并行式集成学习方法最著名的代表.1.1、Bagging原理bagging算法:bagging的个体弱学习器的训练集是通过随机采样得到的。通过T次的随机采样,我们就可以得到T个采样集,对于这T个采样集,我们可以分别独立的训练出T个弱学习器,再对这T个弱学习器通过集合策略来得到最终的强学习器。随机采样(bootsrap)就是从我们的训练集里面采集固定个数的样本,但是每采集一个样本后,都将样本放回。也
原创
发布博客 2020.11.14 ·
4890 阅读 ·
9 点赞 ·
0 评论 ·
32 收藏

CRNN

CRNN详解:https://blog.csdn.net/bestrivern/article/details/91050960https://www.cnblogs.com/skyfsm/p/10335717.html1 概述传统的OCR识别过程分为两步:单字切割和分类任务。现在更流行的是基于深度学习的端到端的文字识别,即我们不需要显式加入文字切割这个环节,而是将文字识别转化为序列学习问题,虽然输入的图像尺度不同,文本长度不同,但是经过DCNN和RNN后,在输出阶段经过一定的翻译后,就可以对整个文本
原创
发布博客 2020.11.13 ·
7460 阅读 ·
8 点赞 ·
1 评论 ·
70 收藏

RNN/LSTM/GRU

1 RNN概述我们已经知道BP算法, CNN算法, 那么为什么还会有RNN呢?? 什么是RNN, 它到底有什么不同之处? RNN的主要应用领域有哪些呢?这些都是要讨论的问题.BP算法,CNN之后, 为什么还有RNN?细想BP算法,CNN(卷积神经网络)我们会发现, 他们的输出都是只考虑前一个输入的影响而不考虑其它时刻输入的影响, 比如简单的猫,狗,手写数字等单个物体的识别具有较好的效果. 但是, 对于一些与时间先后有关)的, 比如视频的下一时刻的预测,文档前后文内容的预测等, 这些算法的表现就不尽如
原创
发布博客 2020.11.12 ·
458 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

决策树

1、什么是决策树?答:决策树是一种分类和回归的基本模型,可从三个角度来理解它,即:一棵树if-then规则的集合,该集合是决策树上的所有从根节点到叶节点的路径的集合定义在特征空间与类空间上的条件概率分布,决策树实际上是将特征空间划分成了互不相交的单元,每个从根到叶的路径对应着一个单元。决策树所表示的条件概率分布由各个单元给定条件下类的条件概率分布组成。实际中,哪个类别有较高的条件概率,就把该单元中的实例强行划分为该类别。2:和其他模型比,它的优点?答:主要的优点有两个:模型具有可解释性,
原创
发布博客 2020.11.09 ·
7566 阅读 ·
1 点赞 ·
0 评论 ·
5 收藏

机器学习中的各种熵

1、熵熵:熵,热力学中表征物质状态的参量之一,用符号S表示,其物理意义是体系混乱程度的度量。从统计的角度来看,概率分布是对随机变量的刻画,而熵就是对不同概率分布的刻画!本质上,熵是为了描述不确定的程度,并以此对不同的概率分布进行比较。举个例子,两枚硬币,一个上抛一次正面朝上概率是0.5,另一个是0.8,此时,假设两枚硬币上抛一次落下后朝上的面分别是x,y。此时,我们可以很容易确定随机变量x,y的概率分布,并借此对两个随机变量有准确的掌握。但我们要问,这两个随机变量哪个更随机?或者说,哪个随机变量包含的
原创
发布博客 2020.11.08 ·
5368 阅读 ·
4 点赞 ·
2 评论 ·
18 收藏

样本不均衡

这里主要介绍CV中的样本不均衡问题(部分方法也适用于ML中)。当前主流的物体检测算法,如Faster RCNN和SSD等,都是将物体检测当做分类问题来考虑,即先使用先验框或者RPN等生成感兴趣的区域,再对该区域进行分类与回归位置。这种基于分类思想的物体检测算法存在样本不均衡的问题,因而会降低模型的训练效率与检测精度。下面首先分析样本不均衡带来的问题,随后会讲解两种经典的缓解不均衡问题的方法。1、不均衡问题分析在当前的物体检测算法中,由于检测算法各不相同,以及数据集之间的差异,可能会存在正负样本、难易样
原创
发布博客 2020.10.18 ·
1590 阅读 ·
1 点赞 ·
0 评论 ·
13 收藏
加载更多