自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

爱你の大表哥的博客

记录自己的学习心得和经验

  • 博客(5)
  • 收藏
  • 关注

原创 Tesseract-OCR 的安装与使用

上篇博文写到爬取教务系统获取信息时,登录时的验证码是手动输入的,所以就想试试能不能自别识别验证码并填充。查阅了很多信息,选取了Tesseract。What is Tesseract ?Tesseract是能够运行在多种操作系统上的开源ORC(Optical Character Recognition , 光学字符识别)引擎,目前由Google维护,是最精确的开源ORC引擎之一。与Mic...

2018-07-28 16:17:30 1862 1

原创 图片的灰度化与二值化

为了提高Tesseract识别的准确性,需要对图片进行一些处理。灰度化RGB颜色模型一种加色模型,将红(Red)、绿(Green)、蓝(Blue)三原色的色光以不同的比例相加,以产生多种多样的色光,且三原色的红绿蓝不可能用其他单色光合成。RGB色彩模式使用RGB模型为图像中每个像素的RGB分量分配一个0~255范围内的强度值。RGB图像仅仅使用三种颜色,R(red)、G(gre...

2018-07-28 16:16:48 10290

原创 爬取正方教务管理系统获取学生信息

最近想学点爬虫玩玩,拿学校的教务系统练练手。学校与很多高校一样,用的是正方教务管理系统,非常的不好用,经常登陆不上去、卡死,主页如下图所示:模拟登录分析登录的URL和所需提供的数据我们输入学号、密码和验证码登录后,点击登录。这时浏览器会向服务器提交一个POST请求我们由上图中的数据可知,请求的URL地址为:http://222.24.62.120/default2.as...

2018-07-27 14:05:34 16465 24

原创 在Java中使用多线程并探究线程的启动方法

使用多线程单线程同步,CPU利用率低;而线程异步,运行效率高。实现 Runnable 接口class PrimeRun implements Runnable { long minPrime; PrimeRun(long minPrime) { this.minPrime = minPrime; }...

2018-07-26 10:55:43 482

原创 正则表达式小记

正则表示式简介正则表示式基本上包括两种字符:字面意义字符与元字符。字面意义字符是指按照字面意义比较的字符;元字符是不按照字面比较,在不同情境有不同意义的字符。1. 字面意义字符 字符 说明 字母或数字 比较字母或数字 \\ 比较\ \0n 八进制0n字符(0<=n<=7) \0nn 八进制0nn字符(0&...

2018-07-24 11:30:26 233

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除