自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 滑动验证码的破解(python+opencv+selenium)

这个周末突然接到电话,要监听一个网页内容,如果网页发生了变化,需要邮件通知。第一感觉这个事应该挺简单的啊,用爬虫把页面读取下来,如果和上次爬取的内容不一样,不就说明发生了变化了嘛。这个时候我把改网页打开,突然发现,what,竟然是要登录后才能跳转到想要的网页,心想这个也没有什么吗,大不了我把账号,密码填进去不就ok了么,当我把账号密码填进去,又TM出幺蛾子了,竟然出现了如下的滑动验证码。这个时...

2018-11-27 15:54:59 12838 14

原创 基于python-opencv的图像中截取多边形区域

最近在语义分割领域苦苦挣扎,模型训练出来后,效果只能说勉强接受,考虑能不能在语义分割模型后追加一层分类模型,对每一个区域再做一次分类。本文仅记录如何在原图中原图中截取出多个多边形。原图是这样的:我想要是每个食材的图片,大概是这样的我已经有了鱼块在图片的多边形坐标(在做图片标注的时候生成的),数据格式大概是这样的[[x1,y1],[x2,y2]…[xn,yn]],现在要做的就是按照这些坐标...

2019-11-28 14:30:46 6191 2

原创 爬取大众点评数据的血泪史

公司最近致力于实现餐饮行业的AI发展模式,领导希望采集一些餐饮数据来提供理论支持。所以没多少头发的我 ,被喊过来做数据收集。想到餐饮数据的收集,第一反应是去爬取美团/大众点评的数据,对比了下美大众点评的数据,发现两者差不多,没什么太大的不同,但大众点评的数据更符合我们的需求(其实是听说大众点评的反爬没有那么狠),就果断选择爬取大众点评的数据。很怀念大众点评没有被美团收购的时光,那个时候数据是随便...

2019-07-09 16:26:37 27278 32

原创 机器学习之线性判别分析(LDA)

在上一篇文章中,介绍了主成分分析法(PCA),这里我们介绍另外一种经典的降维方法和—线性判别分析(LDA)。LDA是一种监督学习的降维技术,也就是说它的数据集的每个样本是有类别输出的。这点和PCA不同。PCA是不考虑样本类别输出的无监督降维技术。LDA降维是要将数据在低维度上进行投影,投影后希望每一种类别数据的投影点尽可能的接近,而不同类别的数据的类别中心之间的距离尽可能的大,用一句话概括,就是“...

2019-03-25 10:47:51 666 2

原创 机器学习之主成分分析(PCA)

PCA(principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法。PCA的主要思想是将n维特征映射到k维上,这k维是全新的正交特征也被称为主成分。是在原有的n维特征的基础上重新构造出来的k维特正,而不是大家误认为的从n维特征中选取k个。PCA有最大方差理论和最小平方误差理论两种解释方式,本文是从最大方差理论角度出发。在信号领域认为信号具有较大的...

2019-02-20 11:11:24 1001

原创 机器学习之K-MEANS算法

聚类属于无监督学习,线性回归、贝叶斯、SVM等常见的算法都是有类别标签y的,也就是说样例中已经给出了样例的分类。而聚类的样本中缺没有给定y,只给定了特征x。聚类的目的是找到每个样本x潜在的类别y,并将同类别y的样本x放在一起。k-means是聚类算法中的比较简单的一种。k-means主要是来计算数据聚集的算法,主要通过不断的更新质心,然后计算各点到质心的距离,将每一个点分配到一个簇中。下图展示了...

2019-02-19 11:16:32 372

原创 决策树中的熵、信息增益、信息增益比以及基尼指数

决策树中的熵、信息增益、信息增益比一级基尼指数决策树是机器学习的一种常用算法,可解释性强,可提取规则。决策时就是学习数据内部规律,找到数据之间的联系。决策树的构建就是递归选择最优特征,并根据该特征对数据进行分割,但是决策树是怎么选择最优的分裂属性呢?决策树特征的选择有三种方法:信息增益、信息熵、Gini系数。为了演示上面三种分裂属性的选择,我们选用一个例子来加以说明:通过数据来判断该生物是否...

2019-01-14 10:32:32 2302

原创 knn

KNN算法简介KNN属于聚类算法中的一种,它没有训练的过程。它的工作原理是存在一个样本数据集合,就是我们说的训练集,并且样本中的每条记录都是存在标签的。意味着每条数据都有对应的类别。输入新的没有标签数据后,将计算新数据与训练集中每条数据的距离(一般为欧式距离),然后对距离进行升序排序,选择前k个距离最小的训练样本的标签作为最相似的数据。最后选择k个最相似数据中出现次数最多的分类作为新数据的分类。...

2019-01-11 11:22:57 264

原创 卷积神经网络实现字符型验证码的破解

前段时间实现了滑动验证码的破解,只是简单的利用opencv来进行缺口位置识别,然后用selenium进行人为拖动,实现方式上没有用到神经网络,没有凸显出深度学习的强大。赶巧,最近又接到一个字符型验证码破解的求助,于是想使用神经网络来实现。字符型的验证码估计大家也都习以为常了,先来看下我接到的字符型验证码如下:比较幸运的是,每张图片的名字就是图片里验证码的内容,这个对于我来说,就省了90%的工程...

2018-12-19 17:18:54 1128

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除