人工智能
文章平均质量分 69
WongKyunban
这个作者很懒,什么都没留下…
展开
-
什么是微积分
微积分,英文calculus,源自拉丁语,意为用于计数的小鹅卵石。微积分都是关于变化的。这句话怎么理解呢?比如说,我们正在路上开着车,问此时此刻的车速是多少?我们可能会去看速度表显示多少。但是速度表上的速度是过去一段时间的平均速度:平均速度=dΔt 平均速度 = \frac{d}{\Delta{t}}平均速度=Δtd当这个Δt时间很短,得到的平均速度就会近似等于此时此该的瞬时速度,即瞬时速度=ΔdΔt 瞬时速度 = \frac{\Delta{d}}{\Delta{t}}瞬时速度=ΔtΔd当Δ原创 2024-07-04 13:25:41 · 389 阅读 · 0 评论 -
什么是一维正态分布?
一个正态分布可以由两个参数定义出来,一个是平均值(mean),用μ表示,它控制了正态分布的中心位置(正态分布中,平均值、中位数、众数都是相等),另一个是标准差(standard deviation),用σ表示,标准差是衡量数据如何分布的度量,它越小,说明数据是紧紧围绕平均值分布的,形状看起来就是又窄又高,它越大,说明数据离平均值比较远,形状看起来就是又宽又矮,所以说它控制了分布的形状。(很来外来的知识,被中国所谓的专家起了一个高大尚的名字后,使中国人觉得其高深莫测,难以消化,其实背后是很简单的东西。原创 2024-06-27 10:36:27 · 858 阅读 · 0 评论 -
什么是标准差和方差
方差就是与均值的平方差的平均值。计算平均值(mean)用μ /读mu/表示。用每一个数减去平均值,再平方(对差进行平方)将第二步得到的平方值都加起来,再除以数据的个数,就能得到方差。σ21N∑i1nxi−μ2σ2N1i1∑nxi−μ2μ:表示平均值。原创 2024-06-23 10:51:04 · 1015 阅读 · 0 评论 -
什么是正态分布
方案二:如果我们想保持当前的平均值1010g,那么我们可以通过减少标准差,也就是提高装盐量的精确度,-2.5个标准差处是1000g,与平均值1010g相差10g,10g/2.5=4g,即标准差为4g,就能够保证平均值(1010g)不变,同时使-2.5个标准差处是1000g。在上面这张图中,曲线代表的是正态分布,黄色的柱状图表示的数据很接近正态分布,用正态分布去近似的表示一些实际数据(很接近正态分布)是非常有价值的事情。首先考试成绩的分布是符合正态分布的,否则我们没有理由去做正态分布来对数据进行相应的处理。原创 2024-06-22 22:27:20 · 1103 阅读 · 0 评论 -
什么概率密度函数?
首先我们来理解一下什么是,在此之前,我们要先理解什么是。所谓就是在一次随机实验中一组可能的值。比如说抛硬币,我们设,设,那么。X是我们的随机变量,100,200是一次随机实验中可能的值,硬币是正面还是反面就是。可以分为和我相信很多人都会这样想,连续数据是像数数那样是顺着的连续的。事实上它也是。离散数据也可以是顺着的,是不是这样就好难和离散数据区分开了呢?事实上,像上面举的列子中,离散数据1、2、3它们仍然只是数轴上的一些点,还算不上连续。原创 2024-06-22 14:06:19 · 639 阅读 · 0 评论 -
在机器学习领域中,One-Hot Encoding是什么
因为它们一般都不是数值数据(数字),分类数据一般都是一些名称、标签,比如说颜色的分类数据有”红“、”绿“、”黄“、“紫”等等,再比如汽车品牌分类数据有“比亚迪”、“奇瑞”、“长城”、“广汽”等等。其中有一种叫“One-Hot Encoding”,关键python还有相似的库来使用,所以让这种编码就更流行了。比特位的值只有两个0或1,所以一个比特位代表一个分类。sklearn提供了One-Hot encoding的数据预处理工具,我们这里因为是在应用机器学习算法前做的数据处理,所以这个阶段也叫数据预处理。原创 2024-06-16 01:08:36 · 360 阅读 · 0 评论 -
条件概率的理解
但是上面纯粹是一个转换,我想偿试从另一个角度来说明它。是在考虑了新信息后,事件发生的修正或更新概率。后验概率是在事件B已经发生的情况下事件A发生的概率。根据前面得到的结论,那么就不难得出下面(1),(2)式合在一起后就不难得出上式是正确。是在进行实验之前基于当前知识对结果概率的最佳合理评估。上面这个等式是求在B事件发生时A的条件概率。P(A | B)表示在B发生的情况下,A的条件概率。P(B | A)表示在A发生的情况下,B的条件概率。P(A)表示A的先验概率。P(B)表示B的先验概率。原创 2024-06-10 23:07:28 · 299 阅读 · 0 评论 -
手写kNN算法的实现-用余弦相似度来度量距离
设a为预测点,b为其中一个样本点,在向量空间里,它们的形成的夹角为θ,那么θ越小,就说明a点越接近b点。所以我们可以通过考察余弦相似度来预测a点的类型。原创 2024-06-09 21:09:49 · 245 阅读 · 0 评论 -
手写kNN算法的实现-用欧几里德空间来度量距离
kNN的算法思路:找K个离预测点最近的点,然后让它们进行投票决定预测点的类型。acc == y_test 得到的结果是。原创 2024-06-09 19:27:10 · 412 阅读 · 0 评论 -
kNN算法-概述
所谓kNN算法就是K-nearest neigbor algorithm。这是似乎是最简单的监督机器学习算法。在训练阶段,kNN算法存储了标签训练样本数据。简单地说,就是调用训练方法时传递给它的标签训练样本会被它存储起来。kNN算法也叫lazy learning algorithm懒惰学习算法。因为在训练阶段传递给它的训练样本会延迟到预测阶段处理。换句话说,对于kNN算法,训练阶段的方法调用只是为了把训练样本存储到模型中而已,不会做什么具体的训练。这也是由它的算法特点决定。原创 2024-06-09 14:35:43 · 514 阅读 · 0 评论 -
正弦、余弦、正切
正弦、余弦、正切这三个概念都是在一个直角三角形这样一个上下文环境里定义的。在一个直角三角形中,斜边叫弦。原创 2024-06-02 14:24:55 · 223 阅读 · 0 评论 -
什么是线性代数(Linear algebra)?
代数的英文是Algebra,这个英文源自一个阿拉伯语“al jebr”,意思是破碎部分的重新组合。这个意思促进了我代数的概念的理解。在代数中,我们会使用基本的算术(加、减、乘、除),便是对于要处理的量通常是未知的,我们会用一些字符,如字母来暂时代替这些量,这也是为什么它们会用字母来表示的原因,先用个占位符占着那个位置先。如a+b+bc = 100, 字母a、b和c都代表了一个数字。在实际处理时,才会代入具体的数字到占位符上。这颇有将数字重新组合在一起的意味。原创 2024-06-01 23:32:55 · 536 阅读 · 0 评论 -
如何开展人工智能项目呢?
我们知道花是不能输入到电脑的,我们要将一朵花抽象成一些数字,这些数字代表了这朵花的特征,一朵花可能会有许许多多特征,我们选出一些具有代表的特征来,将这些特征有数字来表达,比花瓣的长、宽、花萼的长、宽等等。(记住,这些对应关系一定是正确的,不是凭空捏造的),因为人工智能算法是基于数据的,就是人工智能算法做就是帮忙构建出或找到一个函数,这个函数能够完成输入集到输出集的映射。对于创建数据的人,他/她当然是知道0,1,2具体代表什么分类名。经过特征遴选,我们选择了它的四个主要特征::花瓣⻓,花瓣宽,花萼⻓,花萼宽。原创 2024-05-28 01:02:14 · 688 阅读 · 0 评论