机器学习
文章平均质量分 83
daydayup_668819
这个作者很懒,什么都没留下…
展开
-
机器学习中五种常用的聚类算法
聚类是机器学习中一种重要的无监督算法,它可以将数据点归结为一系列特定的组合。理论上归为一类的数据点具有相同的特性,而不同类别的数据点则具有各不相同的属性。在数据科学中聚类会从数据中发掘出很多分析和理解的视角,让我们更深入的把握数据资源的价值、并据此指导生产生活。以下是五种常用的聚类算法。 K均值聚类 这一最著名的聚类算法主要基于数据点之间的均值和与聚类中心的聚类迭代而...转载 2020-04-08 21:30:13 · 8708 阅读 · 0 评论 -
机器学习:python常用可视化技巧
机器学习–>python常用可视化技巧 https://blog.csdn.net/Mr_tyting/article/details/73196119 ...转载 2018-08-25 15:46:05 · 320 阅读 · 0 评论 -
机器学习:检测异常样本方法总结
数据预处理的好坏,很大程度上决定了模型分析结果的好坏。其中,异常值(outliers)检测是整个数据预处理过程中,十分重要的一环。方法也是多种多样。由于异常值检验,和去重、缺失值处理不同,它带有一定的主观性。在实际业务场景中,我们要根据具体的业务逻辑来判别哪些样本是离群点。下面总结下平时经常用到的异常样本检测方法。可视化的方法对于样本集某一个特征而言,可以直接画出这个样本集在这个特...转载 2018-08-25 17:57:12 · 7693 阅读 · 1 评论 -
Sklearn包含的常用算法
原文:Sklearn包含的常用算法说明文章列出了Sklearn模块中常用的算法及调用方法,部分生僻的未列出(对我来说算生僻的),如果有写的不对的地方请指出。 参考资料来自sklearn官方网站:http://scik...转载 2018-08-30 11:49:42 · 782 阅读 · 0 评论 -
python下的Pandas中DataFrame基本操作(一),基本函数整理
pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中对pandas的方方面面都有了一个权威简明的入门级的介绍,谈到pandas数据的行更新、表合并等操作,一般用到的方法有concat、join、merge。但这三种方法对于很多新手...原创 2018-09-02 15:00:23 · 68648 阅读 · 1 评论 -
easyPR车牌识别分析与测试结果
简介最近由于项目需要,需要做一个车牌号抓取和识别的功能,于是找到了EasyPR,全称Easy to do Plate Recognition,一个全中文的开源识别项目,基于OpenCV和机器学习实现,支持跨平台,相对来说比较简单,速度也还不错,准确度而言,白天还行,晚上很差,尤其是开启前照灯的情况下非常糟糕,不过还是要感谢作者能够开源给大家分享。下载github地址:https://git...转载 2018-11-16 11:09:51 · 1572 阅读 · 0 评论 -
二维码识别
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/sdlypyzq/article/details/78073640 1 什么是二维码二维码 (2-dimensional bar code),是用某种特定的几何图形按一定规律在平面(二维方向上)分布的黑白相间的图形记录数据符号信息的。在许多种类...转载 2018-12-06 09:58:10 · 9337 阅读 · 1 评论 -
构建神经网络前你需要先考虑这几件事
版权声明:本文为博主原创文章,更多精彩文章请关注公众号【Jeemy110】 https://blog.csdn.net/l7H9JA4/article/details/84332428 前言在阅读了一篇MNIST的教程(或10篇)并了解了一些Tensorflow / Keras最佳实践后,...转载 2018-12-06 11:21:41 · 1326 阅读 · 0 评论 -
用深度学习做图像分类任务模型训练经验
前言用深度学习做图像分类任务摸索中踩了很多坑,也总结出了一些经验。现在将一些自己觉得非常实用的模型训练经验写下来作为记录,也方便后来者借鉴验证。调参经验模型选择通常我会使用一个简单的CNN模型(这个模型一般包含5个卷积层)将数据扔进去训练跑出一个baseline,这一步工作主要是为了验证数据集的质量。如果这个模型训练结果很差就不要先调试模型,需要检查一下你的训练集数据,看看图像的质量,图...原创 2018-12-06 14:44:26 · 5654 阅读 · 0 评论 -
强化学习(reinforcement learning)简介
机器学习可以分为三类,分别是 supervised learning,unsupervised learning 和reinforcement learning。强化学习与监督学习,非监督学习之间的关系强化学习是机器学习的一种方法,同样类似于深度学习,他们之间的关系可以用一幅图简单明了的描述:RL与有监督学习、无监督学习的比较: (1)有监督的学习是从一个已经标记的训练集中进行学习,训...原创 2019-05-17 14:44:40 · 4569 阅读 · 0 评论 -
离散型特征编码方式:one-hot与哑变量*
在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参数确定模型的表示,最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中,我们会对训练数据集进行抽象、抽取大量特征,这些特征中有离散型特征也有连续型特征。若此时你使用的模型是简单模型(如LR),那么通常我们会对连续型特征进行离散化操作,然后再对离散的特征,进行...原创 2018-08-27 11:13:40 · 1860 阅读 · 0 评论 -
python常用库 - NumPy 和 sklearn入门
Numpy 和 scikit-learn 都是python常用的第三方库。numpy库可以用来存储和处理大型矩阵,并且在一定程度上弥补了python在运算效率上的不足,正是因为numpy的存在使得python成为数值计算领域的一大利器;sklearn是python著名的机器学习库,它其中封装了大量的机器学习算法,内置了...原创 2018-08-27 11:09:27 · 440 阅读 · 0 评论 -
机器学习中特征的处理及选择
基础概念特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言,好的数据以及特征往往是一个性能优秀模型的基础。既然叫特征工程,自然涵盖了很多内容,而其中...转载 2018-08-27 10:42:07 · 1421 阅读 · 0 评论 -
DTW的原理及matlab实现
1.概述在大部分的学科中,时间序列是数据的一种常见表示形式。对于时间序列处理来说,一个普遍的任务就是比较两个序列的相似性。在时间序列中,需要比较相似性的两段时间序列的长度可能并不相等,在语音识别领域表现为不同人的语速不同。因为语音信号具有相当大的随机性,即使同一个人 在不同时刻发同一个音,也不可能具有完全的时间长度。而且同一个单词内的不同音素的发音速度也不同,比如有的人会把“A”这个音拖得...原创 2018-06-21 16:04:57 · 9608 阅读 · 6 评论 -
随机森林(Random Forests)介绍
1.决策树(Decision Tree)决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。常见的决策树算法有C4.5、ID3和CART。2.集成学习(Ensemble Learning)集成学习通过建立几个模型组合的来解决单一预测问题。它的工作原理是生成多个分类器/模型,各自独立地学习和作出预测。这些预测最后结合成单预测,...原创 2018-07-17 16:05:36 · 16565 阅读 · 0 评论 -
李航博士的《浅谈我对机器学习的理解》 机器学习与自然语言处理
算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得没有个八年十年的刻苦钻研是不可能的事情。其实整个人工智能范畴都属于科研难题,包括模式识别、机器学习、搜索、规划...转载 2018-07-23 13:07:33 · 365 阅读 · 0 评论 -
主成分分析法Principal component analysis (PCA)介绍
1.简介Principal component analysis (PCA) is a statistical procedure that uses an orthogonal transformation to convert a set of observations of possibly correlated variables into a set of values of lin...原创 2018-07-17 18:55:34 · 3697 阅读 · 0 评论 -
无监督特征学习(半监督学习+自学习)
综述如果已经有一个足够强大的机器学习算法,为了获得更好的性能,最靠谱的方法之一是给这个算法以更多的数据。机器学习界甚至有个说法:“有时候胜出者并非有最好的算法,而是有更多的数据。”人们总是可以尝试获取更多的已标注数据,但是这样做成本往往很高。例如研究人员已经花了相当的精力在使用类似 AMT(Ama...转载 2018-07-26 14:18:26 · 6982 阅读 · 0 评论 -
【机器学习】半监督学习
传统的机器学习技术分为两类,一类是无监督学习,一类是监督学习。无监督学习只利用未标记的样本集,而监督学习则只利用标记的样本集进行学习。但在很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高,比如在生物学中,对某种蛋白质的结构分析或者功能鉴定,可能会花上生物学家很多年的...转载 2018-07-26 14:19:41 · 1020 阅读 · 2 评论 -
随机森林算法(有监督学习)
一、随机森林算法的基本思想 随机森林的出现主要是为了解单一决策树可能出现的很大误差和overfitting的问题。这个算法的核心思想就是将多个不同的决策树进行组合,利用这种组合降低单一决策树有可能带来的片面性和判断不准确性。用我们常说的话来形容这个思想就是“三个臭皮匠赛过诸葛亮”。 具体来讲,随机森林是用随...原创 2018-07-22 16:49:28 · 8437 阅读 · 0 评论 -
【机器学习】逻辑回归(Logistic Regression)
从本质上讲:机器学习就是一个模型对外界的刺激(训练样本)做出反应,趋利避害(评价标准)。 1. 什么是逻辑回归?许多人对线性回归都比较熟悉,但知道逻辑回归的人可能就要少的多。从大的类别上来说,逻辑回归是一种有监督的统计学习方法,主要用于对样本进行分类。在线性回归模型中,输出一般是连续的,例如y=f(x)=ax+b” role=”presentation” style=”tex...原创 2018-08-16 17:14:46 · 562 阅读 · 0 评论 -
机器学习体系
大致提纲如下: 1.数学线性代数、微积分 在整个机器学习过程中涉及大量矩阵运算和微积分导数的概念,因此建议初学者至少要有较为扎实的数学基础,对矩阵和微积分的概念了解比较清楚。否则在一些公式推导过程中会遇到较大障碍。2.编程语言Python/R/Java/Matlab 7 Steps to Mastering Machine Learning With Python Pyth...原创 2018-03-28 15:37:06 · 456 阅读 · 0 评论