自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

想不出来

每天学习一点,每天进步一点。

  • 博客(8)
  • 收藏
  • 关注

原创 一种识别简单验证码的方法

本文主要讲述了一种识别简单验证码的方法,本文重点不是识别这些简单的数字,而是通过识别数字这个过程理解到图片的数字构造。任何一张图片都是由三个图层构成的,每个图层是一张二维矩阵表,三张表上位置相同的三个数值组成一个像素点,数值范围是0到255,黑白图片三张表是相同的,所以是256种颜色,彩色图片三张表的数值不一样,所以液晶电视打广告的真彩色有256256256=16777216种颜色。识别步骤主要分为3步:1、对验证码图片打标签并创建文字和图片一一对应的识别模板集,以供后续比对使用;2、提取待识别验证码

2021-09-18 14:31:50 939

原创 连退212机组分包计算模型

连退212机组分包计算模型学习连退212机组排程以来,一直存在一个来料不好分包的问题,机组尾操经常会询问某个或者某几个卷如何分包。一般每天滚动的轧硬卷库存中至少有10个以上的卷,人工比较难判断是否能正常分包。每天有4到6千吨的轧硬卷库存,人工很难每天都把不好分包的卷识别出来。所以需要一个能识别出不好分包卷的方法,识别后还需要一个用户能接受的分包建议。基于此需求,编写了一个分包建议模型,模型主要分为两部分,第一部分是识别是否能按照订货单重要求分包,第二部分是针对不能按照订货单重要求进行分包的卷,根据历史准发

2021-09-17 15:30:53 163

原创 selenium抓取页面表格

抓取的网站是 吉林水文信息网,都是公开数据。本文主要讲的是如何使用selenium提取页面表格,下面***号间的代码就是提取表格的代码,只需要在开头的地方获取tr和td两个元素就可以了。原理是通过tr元素个数获知表格行数,td元素中的colspan、rowspan属性获知单元格总个数,从而计算出表格的列数。然后构建值为0的对应行列数表格,逐一将td元素中的文本填入表格,即可得到页面的表格。from selenium.webdriver.common.keys import Keysfrom seleni

2020-07-23 13:14:56 3526 1

原创 Python selenium抓取航空公司网站数据

动态页面抓取主要是网页动态元素的定位,这部分元素随鼠标和键盘的操作显现或者隐藏,只有显现的时候才能获取到数据。from selenium.webdriver.common.keys import Keysfrom selenium import webdriverimport timedef func01(html): #按照‘<’符号拆分 line='';html...

2018-03-05 20:36:33 2429 2

原创 Python selenium爬虫抓取船舶网站数据(动态页面)

很早之前就开始学习爬虫了,一直想学习爬取动态页面,正巧工作中需要用到一个船舶信息的网站,每次都是手动查询太麻烦了,昨天下午研究了一下午,总算搞透彻了,基本步骤如下: 1、启动浏览器 2、打开网页 3、模拟输入,模拟点击 4、稍等一会(很重要) 5、获取网页数据 6、清洗数据代码分两部分,一部分保存为函数(Chrome_shipxy.py),另一部分作为程序调用函数,这样方便扩展多进...

2018-03-02 21:11:47 3967 4

原创 Python 文本挖掘淘宝客服日志挖掘

本文没有使用特别高端的挖掘算法,也没有使用专用的第三方分词工具,是基于统计的原理进行分词和文章句子的统计的。基本逻辑如下: 1、导入文章,进行分句。 2、按照2个字一个词的规则,对统计的句子进行分词并统计。 3、对分得的词进行处理,去除词左右交接的组合,比如ABCD中,BC出现的频率高于AB、CD,则AB、CD在ABCD同时出现的句子中不应被视为词语,但如果在后续的句子中,存在BCDF,CD...

2018-02-12 15:38:16 1007

原创 Python k-均值聚类算法二维实例

k-均值聚类算法二维实例,不多解释,解释就是掩饰,复制粘贴即可运行。import timeimport numpy as npimport randomimport matplotlib.pyplot as pltimport operatordef func01(): #生成二维随机点 #random.seed(1) kjz1=[[random.randi...

2018-02-10 21:44:56 2972 1

原创 Python k-均值聚类算法一维实例

大家好,一直以来在CSDN上学了很多编程方面的知识,很感谢这个平台,感谢大家的无私分享,早就想为中文IT社区贡献一点自己的力量,正巧昨天看了一篇二维聚类的博客,关键算法的地方使用了一个函数,但是后面没有见到这个函数,琢磨了一下,一步步自己写吧,先写个一维的,没什么技术难度,就是一点点技巧。 k-均值聚类,是根据均值间的距离来进行聚类的,在算法实现时, 1、需要首先确定需要分几类, 2、然后给...

2018-02-09 23:14:44 11962 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除