机器学习
文章平均质量分 89
Tracy_LeBron
一个爱测试的程序猿
展开
-
卷积神经网络实现字符型验证码的破解
前段时间实现了滑动验证码的破解,只是简单的利用opencv来进行缺口位置识别,然后用selenium进行人为拖动,实现方式上没有用到神经网络,没有凸显出深度学习的强大。赶巧,最近又接到一个字符型验证码破解的求助,于是想使用神经网络来实现。字符型的验证码估计大家也都习以为常了,先来看下我接到的字符型验证码如下:比较幸运的是,每张图片的名字就是图片里验证码的内容,这个对于我来说,就省了90%的工程...原创 2018-12-19 17:18:54 · 1128 阅读 · 0 评论 -
knn
KNN算法简介KNN属于聚类算法中的一种,它没有训练的过程。它的工作原理是存在一个样本数据集合,就是我们说的训练集,并且样本中的每条记录都是存在标签的。意味着每条数据都有对应的类别。输入新的没有标签数据后,将计算新数据与训练集中每条数据的距离(一般为欧式距离),然后对距离进行升序排序,选择前k个距离最小的训练样本的标签作为最相似的数据。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。...原创 2019-01-11 11:22:57 · 264 阅读 · 0 评论 -
决策树中的熵、信息增益、信息增益比以及基尼指数
决策树中的熵、信息增益、信息增益比一级基尼指数决策树是机器学习的一种常用算法,可解释性强,可提取规则。决策时就是学习数据内部规律,找到数据之间的联系。决策树的构建就是递归选择最优特征,并根据该特征对数据进行分割,但是决策树是怎么选择最优的分裂属性呢?决策树特征的选择有三种方法:信息增益、信息熵、Gini系数。为了演示上面三种分裂属性的选择,我们选用一个例子来加以说明:通过数据来判断该生物是否...原创 2019-01-14 10:32:32 · 2302 阅读 · 0 评论 -
机器学习之K-MEANS算法
聚类属于无监督学习,线性回归、贝叶斯、SVM等常见的算法都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中缺没有给定y,只给定了特征x。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。k-means是聚类算法中的比较简单的一种。k-means主要是来计算数据聚集的算法,主要通过不断的更新质心,然后计算各点到质心的距离,将每一个点分配到一个簇中。下图展示了...原创 2019-02-19 11:16:32 · 372 阅读 · 0 评论 -
机器学习之主成分分析(PCA)
PCA(principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分。是在原有的n维特征的基础上重新构造出来的k维特正,而不是大家误认为的从n维特征中选取k个。PCA有最大方差理论和最小平方误差理论两种解释方式,本文是从最大方差理论角度出发。在信号领域认为信号具有较大的...原创 2019-02-20 11:11:24 · 1001 阅读 · 0 评论 -
机器学习之线性判别分析(LDA)
在上一篇文章中,介绍了主成分分析法(PCA),这里我们介绍另外一种经典的降维方法和—线性判别分析(LDA)。LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA降维是要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大,用一句话概括,就是“...原创 2019-03-25 10:47:51 · 666 阅读 · 2 评论