自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

阿里萨的博客

澡雪日新

  • 博客(18)
  • 收藏
  • 关注

原创 Python踩坑1:雷达图的那些问题

4.matplotlib一直无法找到此模块,而我安装了,搞了好久发现我需要重新安装自带mkl的numpy包。7.因为以上原因,在这台垃圾电脑运行同一个程序,需要append雷达图标签的第一个标签,以使雷达图闭合。6.我现在都存疑:到底要不要重新安装pillow库,我搞了反正,感觉问题不是在这里。搞完之后,雷达图跳出来的一瞬间,我直接高潮了,拍案叫绝:“(`皿´)我草!5.matplotlib版本更新后,删除了frac这个参数,我需要改代码。1.Python3.7.6是支持我这垃圾电脑最高的版本。

2023-05-17 14:35:15 261

原创 算法工程师

都叫算法工程师,不同公司工作内容不同,除开专门的算法研究员,剩下的工程师们至少应该掌握的能力:大数据能力——》特征 算法能力——》测试 工程能力——》部署搜集了一些前辈整理的资料...

2019-08-31 14:49:31 174

原创 【机器学习的一些问题】降维

机器学习中,数据通常被表示为向量形式输入模型进行训练,但对于大量的多维数据直接进行处理和分析会极大消耗系统资源,因此需要通过降维缓解这一问题。降维,就是用一个低维度向量来表示原始高维度向量的特征。常见的方法有:主成分分析Principal Components Analysis,PCA 线性判别分析Linear Discriminant Analysis,LDA 等距映射 局部线性嵌入...

2019-06-05 03:04:57 660

原创 【机器学习的一些问题】经典算法之决策树

决策树Decision Tree:包含特征选择、树的构造和树的剪枝三个过程,可用于解决分类和回归问题,简单直观、解释性强,在营销和生物医药领域特别受欢迎(树形结构在销售、诊断等场景的决策过程中特别适用),将决策树应用集成学习思想可以得到随机森林、梯度提升决策树等模型。实际应用过程中应根据数据类型、规模和任务的不同灵活选用决策树和剪枝策略。决策树常用的启发式函数ID3:最大信息增益。倾...

2019-06-02 16:08:03 232

原创 【机器学习的一些问题】经典算法之逻辑回归

逻辑回归Logistic Regression逻辑回归处理分类问题,线性回归处理回归问题。逻辑回归的因变量取值是一个二元分布,给定自变量和超参数后,得到因变量的期望,并根据该期望处理预测分类问题。逻辑回归和线性回归的最大区别在于:逻辑回归的自变量是离散的,而线性回归的自变量是连续的。逻辑回归和线性回归的相同之处:使用极大似然估计对训练样本建模,使用梯度下降方法求解超参数。...

2019-06-02 16:07:37 133

原创 【机器学习的一些问题】经典算法之支持向量机

支持向量机Support Vector Machine:数据/分类面/优化/核映射/分类超平面对于任意线性可分的两组点,它们在SVM的分类超平面上的投影点都是线性不可分的。为什么?极端假设。二维空间只存在两个点,那么它们的分类超平面就是两点连线中垂线,它们的投影点显然重合于中垂线与连线的交点。 反证法。假设有两组点,然后假设它们在分类超平面的投影点线性可分,那么很显然这个分类超平面...

2019-06-02 16:06:36 177

原创 【机器学习的一些问题】模型评估之过/欠拟合

过拟合:训练时很好,测试时不好。欠拟合:训练时不好,测试时不好。降低过拟合的方法:从数据入手,获取更多的数据。更多的数据可以学习更多的特征,减少噪声的影响。当数据确实不足时,比如图像,可以通过平移旋转等操作制造新数据,甚至可以通过GAN制造。 降低模型复杂度。数据较少时,模型过于复杂是过拟合的主要原因,比如深度学习中的减少网络层数和神经元个数,决策树的降低深度和剪枝。 正则化...

2019-06-01 17:46:21 149

原创 【机器学习的一些问题】模型评估之超参调优

超参调优往往根据所谓的“经验值”,而超参往往对模型效果至关重要。调优的过程可视为“黑盒优化”,我们需要寻找一些方法来获取最优的超参数。需要考虑的要素目标函数,即算法需要最大化/最小化的目标。 搜索范围,一般通过上限和下限确定。 其他参数,如步长。网格搜索:通过搜索范围内所有的点来确定最优值,十分小号计算资源和时间。在实际应用中,一般用较广的搜索范围和较大的补偿寻找可能最优...

2019-06-01 17:35:36 231

原创 【机器学习的一些问题】模型评估之检验方法

Holdout检验将原始数据集随机划分为训练集和验证集。评估指标与原始分组有很大关系。交叉检验k-fold交叉验证:划分为k个大小相等的样本子集,依次遍历子集,当前子集为验证集其余为训练集,最终将K次评估指标平均值作为最终评估指标。留一验证:每次留下一个样本作为验证集,其余所有样本为测试集。样本数为n的情况下需遍历n次评估n次,时间开销极大。可视为留 p验证的特例。...

2019-06-01 17:20:27 515

原创 【机器学习的一些问题】模型评估之A/B测试

进行在线A/B测试的原因:离线模型不能消除过拟合问题。离线评估结果无法完全代替线上评估结果。 离线评估不能还原线上工作环境。比如环境延迟、数据丢失、标签缺失等等。 线上系统的商业指标在离线评估中无法计算。线上评估可以全面了解到用户点击率、留存时长等数据的变化。如何进行在线A/B测试:用户随机分桶,实验组-新模型,对照组-旧模型,要保证样本的独立性和采样的无偏性。如何分桶:避免...

2019-06-01 17:04:07 836

原创 【机器学习的一些问题】模型评估之余弦距离

机器学习的过程中,不仅要评估一个模型,也需要评估样本间的距离。特征用向量表示,则特征的相似性由向量的相似性而来,向量的相似性用余弦相似度表示。余弦相似度取值为[-1,1],为了得到类似于距离的表示,用1减去余弦相似度即为余弦距离,余弦距离取值为[0,2]。一个严格定义的距离应满足正定性,对称性和三角不等式这三条距离公理,余弦距离不满足三角不等式,不是一个严格定义的距离。文本、图...

2019-06-01 16:50:42 389

原创 【机器学习的一些问题】模型评估之ROC曲线

二值分类器Binary Classifier:机器学习领域最常用、应用最广泛的分类器。ROC曲线是评估其模型的重要指标之一。ROC曲线Receiver Operating Characteristic Curve,受试者工作特征曲线,横坐标为FPR(假阳性率False Positive Rate),纵坐标为TPR(真阳性率True Positive Rate)。FPR=FP/N,负样...

2019-06-01 16:33:19 912

原创 【机器学习的一些问题】模型评估之评估指标

模型评估结果不好,可能有啥原因?评估指标的选择 模型过拟合或者欠拟合 测试集和训练集划分不合理 线下样本比例和线上测试比例不一样准确率Accuracy指被正确分类的样本个数占总样本个数的比例。它是最简单直观的评价指标,但存在明显缺陷:当不同类别的样本比例非常不均衡时,占比大的类别会成为影响准确率的最大因素。精确率Precision指分类正确的正样本占所有被分类器判定为正...

2019-05-27 11:43:08 396

原创 【机器学习的一些问题】特征工程

特征归一化量纲指物理量的基本属性。基本量的量纲为其自身,一切导出量均可从基本量导出。为了解决指标不同量纲无法进行直接汇总的问题,一般在数据搜集完成之后还需要消除量纲影响,也成为同度量处理。相对化处理方法、函数化处理方法、标准化处理方法是目前最常用的方法。在数据处理和分析的过程中,我们对数值类型的特征做归一化可以将所有特征都统一到一个大致相同的数值区间内。常有方法有:线性函数归一化Min...

2019-05-23 14:07:16 183

原创 我对遥感影像分类的理解(2)

如同其他数据中存在噪点数据,遥感影像数据也有,但这两个”噪点“的含义是不同的。一些数据中的”脏数据“可能真的是无用的、甚至是错误的,但遥感影像所展现的地面全部是真实的,本不存在”噪点“一说。假设我们使用基于光谱特征的聚类方法对遥感影像进行聚类,有些像素(数据点)就是如此的突兀——它和周边的就是迥然相异。比如一个工业区的遥感影像,我们从高空俯视,水体是水体、植被是植被、混凝土建筑是混凝土,但为什...

2019-03-14 16:26:01 1745

原创 我对遥感影像分类的理解(1)

研究遥感影像首先要拿到影像数据,常见的有全色、rgb、多光谱、高光谱和超光谱。全色图像由于没有滤波过程,因此观察相同的空间维度,其空间分辨率要比rgb图像高得多。rgb图像本质上是红(0.630~0.680um)、绿(0.525~0.600um)、蓝(0.450~0.515um)三个波段混合后的图像,贴近人眼的观察,因此我们称之为“真彩色图像”;而全色图像由于只获取0.380~0.76um0这一波...

2019-03-14 15:48:02 4585

原创 图像拉伸

图像拉伸是最基础的图像处理方法,主要用来改善图像显示的对比度,道路提取流程中往往首先要对图像进行拉伸的预处理。图像拉伸主要有三种方式:灰度拉伸、直方图均衡化和直方图规定化。下面主要看看灰度拉伸:灰度拉伸灰度拉伸以像素为单位对图像进行增强,对指定的灰度范围进行变换。因为像素的灰度值和地物具有相关关系,所以灰度拉伸可以用来突出或者抑制指定地物的特征——这也要求我们对地物的灰度分布有一定认识。灰...

2018-11-12 14:54:20 8755 2

原创 20181109回顾

20181107周三下午交流之后并没有得到多少实质性的指导和帮助,反倒是立了一个催人奋进的军令状,既兴奋又害怕。八爪鱼涉及到的一些爬虫知识还是蛮有趣的,不过之后的学习重心不在这里,将一些从百度搜索和百度图片爬取的内容递交之后暂时也远离了项目开发。这之后的学习以里程碑为衡量标准,主要学习内容为遥感图像的挖掘与分析,深入Linux编程,提升python coding能力,认真学习数据科学和机器学习领域...

2018-11-09 15:54:52 162

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除