Tracy_LeBron-CSDN博客

原创滑动验证码的破解（python+opencv+selenium）

这个周末突然接到电话，要监听一个网页内容，如果网页发生了变化，需要邮件通知。第一感觉这个事应该挺简单的啊，用爬虫把页面读取下来，如果和上次爬取的内容不一样，不就说明发生了变化了嘛。这个时候我把改网页打开，突然发现，what，竟然是要登录后才能跳转到想要的网页，心想这个也没有什么吗，大不了我把账号，密码填进去不就ok了么，当我把账号密码填进去，又TM出幺蛾子了，竟然出现了如下的滑动验证码。这个时...

2018-11-27 15:54:59 12854 14

原创基于python-opencv的图像中截取多边形区域

最近在语义分割领域苦苦挣扎，模型训练出来后，效果只能说勉强接受，考虑能不能在语义分割模型后追加一层分类模型，对每一个区域再做一次分类。本文仅记录如何在原图中原图中截取出多个多边形。原图是这样的：我想要是每个食材的图片，大概是这样的我已经有了鱼块在图片的多边形坐标(在做图片标注的时候生成的)，数据格式大概是这样的[[x1,y1],[x2,y2]…[xn,yn]],现在要做的就是按照这些坐标...

2019-11-28 14:30:46 6198 2

原创爬取大众点评数据的血泪史

公司最近致力于实现餐饮行业的AI发展模式，领导希望采集一些餐饮数据来提供理论支持。所以没多少头发的我，被喊过来做数据收集。想到餐饮数据的收集，第一反应是去爬取美团/大众点评的数据，对比了下美大众点评的数据，发现两者差不多，没什么太大的不同，但大众点评的数据更符合我们的需求（其实是听说大众点评的反爬没有那么狠），就果断选择爬取大众点评的数据。很怀念大众点评没有被美团收购的时光，那个时候数据是随便...

2019-07-09 16:26:37 27298 32

原创机器学习之线性判别分析（LDA）

在上一篇文章中，介绍了主成分分析法（PCA），这里我们介绍另外一种经典的降维方法和—线性判别分析（LDA）。LDA是一种监督学习的降维技术，也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA降维是要将数据在低维度上进行投影，投影后希望每一种类别数据的投影点尽可能的接近，而不同类别的数据的类别中心之间的距离尽可能的大，用一句话概括，就是“...

2019-03-25 10:47:51 668 2

原创机器学习之主成分分析（PCA）

PCA(principal Component Analysis),即主成分分析方法，是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上，这k维是全新的正交特征也被称为主成分。是在原有的n维特征的基础上重新构造出来的k维特正，而不是大家误认为的从n维特征中选取k个。PCA有最大方差理论和最小平方误差理论两种解释方式，本文是从最大方差理论角度出发。在信号领域认为信号具有较大的...

2019-02-20 11:11:24 1001

原创机器学习之K-MEANS算法

聚类属于无监督学习，线性回归、贝叶斯、SVM等常见的算法都是有类别标签y的，也就是说样例中已经给出了样例的分类。而聚类的样本中缺没有给定y，只给定了特征x。聚类的目的是找到每个样本x潜在的类别y，并将同类别y的样本x放在一起。k-means是聚类算法中的比较简单的一种。k-means主要是来计算数据聚集的算法，主要通过不断的更新质心，然后计算各点到质心的距离，将每一个点分配到一个簇中。下图展示了...

2019-02-19 11:16:32 373

原创决策树中的熵、信息增益、信息增益比以及基尼指数

决策树中的熵、信息增益、信息增益比一级基尼指数决策树是机器学习的一种常用算法，可解释性强，可提取规则。决策时就是学习数据内部规律，找到数据之间的联系。决策树的构建就是递归选择最优特征，并根据该特征对数据进行分割，但是决策树是怎么选择最优的分裂属性呢？决策树特征的选择有三种方法：信息增益、信息熵、Gini系数。为了演示上面三种分裂属性的选择，我们选用一个例子来加以说明：通过数据来判断该生物是否...

2019-01-14 10:32:32 2304

原创 knn

KNN算法简介KNN属于聚类算法中的一种，它没有训练的过程。它的工作原理是存在一个样本数据集合，就是我们说的训练集，并且样本中的每条记录都是存在标签的。意味着每条数据都有对应的类别。输入新的没有标签数据后，将计算新数据与训练集中每条数据的距离（一般为欧式距离），然后对距离进行升序排序，选择前k个距离最小的训练样本的标签作为最相似的数据。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。...

2019-01-11 11:22:57 265

原创卷积神经网络实现字符型验证码的破解

前段时间实现了滑动验证码的破解，只是简单的利用opencv来进行缺口位置识别，然后用selenium进行人为拖动，实现方式上没有用到神经网络，没有凸显出深度学习的强大。赶巧，最近又接到一个字符型验证码破解的求助，于是想使用神经网络来实现。字符型的验证码估计大家也都习以为常了，先来看下我接到的字符型验证码如下：比较幸运的是，每张图片的名字就是图片里验证码的内容，这个对于我来说，就省了90%的工程...

2018-12-19 17:18:54 1129

Tracy_LeBron的博客