数据挖掘算法
文章平均质量分 58
qq_24311495
这个作者很懒,什么都没留下…
展开
-
一种识别简单验证码的方法
本文主要讲述了一种识别简单验证码的方法,本文重点不是识别这些简单的数字,而是通过识别数字这个过程理解到图片的数字构造。任何一张图片都是由三个图层构成的,每个图层是一张二维矩阵表,三张表上位置相同的三个数值组成一个像素点,数值范围是0到255,黑白图片三张表是相同的,所以是256种颜色,彩色图片三张表的数值不一样,所以液晶电视打广告的真彩色有256256256=16777216种颜色。识别步骤主要分为3步:1、对验证码图片打标签并创建文字和图片一一对应的识别模板集,以供后续比对使用;2、提取待识别验证码原创 2021-09-18 14:31:50 · 936 阅读 · 0 评论 -
连退212机组分包计算模型
连退212机组分包计算模型学习连退212机组排程以来,一直存在一个来料不好分包的问题,机组尾操经常会询问某个或者某几个卷如何分包。一般每天滚动的轧硬卷库存中至少有10个以上的卷,人工比较难判断是否能正常分包。每天有4到6千吨的轧硬卷库存,人工很难每天都把不好分包的卷识别出来。所以需要一个能识别出不好分包卷的方法,识别后还需要一个用户能接受的分包建议。基于此需求,编写了一个分包建议模型,模型主要分为两部分,第一部分是识别是否能按照订货单重要求分包,第二部分是针对不能按照订货单重要求进行分包的卷,根据历史准发原创 2021-09-17 15:30:53 · 163 阅读 · 0 评论 -
selenium抓取页面表格
抓取的网站是 吉林水文信息网,都是公开数据。本文主要讲的是如何使用selenium提取页面表格,下面***号间的代码就是提取表格的代码,只需要在开头的地方获取tr和td两个元素就可以了。原理是通过tr元素个数获知表格行数,td元素中的colspan、rowspan属性获知单元格总个数,从而计算出表格的列数。然后构建值为0的对应行列数表格,逐一将td元素中的文本填入表格,即可得到页面的表格。from selenium.webdriver.common.keys import Keysfrom seleni原创 2020-07-23 13:14:56 · 3518 阅读 · 1 评论