Python
文章平均质量分 90
Sean_SJTU
研究兴趣模式识别、机器学习、数据挖掘。
展开
-
Android应用开发进阶篇-场景文字识别
由于研究生毕业项目需要完成一个基于移动终端的场景文字识别系统,虽然离毕业尚早,但出于兴趣的缘故,近一段抽时间完成了这样一套系统。基本的架构如下: 客户端:Android应用实现拍摄场景图片,大致划出感兴趣文字区域,通过socket通信上传服务器端识别; 服务器端:Python server进行socket通信监听,连通后调用文字识别引擎(exe可执行程序),将识别结果返回;原创 2014-07-12 12:17:01 · 3177 阅读 · 3 评论 -
selenium+python 爬取网络图片(1) -- soso、谷歌、好搜
做图像处理的朋友,都时常需要收集整理大量的图像数据集。做科研时有各种现有的标准数据集大家都直接拿来用,但是工程上却经常需要自己收集图片,从网上爬取图片便成了比较常见的任务。为了用python完成这个任务,需要解决如下两个问题:1. 图片素材源自哪里呢?第一直觉就是搜索引擎里的图片,比如要收集手机的图片,则进入搜索引擎搜索关键字即可得到大量相关图片。2. 动态网站的内容往往是通过aj原创 2015-01-30 22:39:13 · 10778 阅读 · 1 评论 -
selenium+python 爬取网络图片(2) -- 百度
上一篇博文《selenium+python 爬取网络图片(1) -- soso、谷歌、好搜》介绍了如何用selenium+python在诸如soso、谷歌、好搜等搜索引擎上爬取图片的方法,但是却没用提到百度,因为百度的情况比较特殊。首先,百度图片的数据更好,因为每幅图片都有“data-desc”描述可以作为图像很好的语义标签,此外基于百度较强的技术其查询搜索得到的图片相关性较高,后续人工筛选工作较少;其次,百度图片的数据不容易爬取,如果像前一篇文章中的方法取img标签的src值作为下载url,是下载不到图片原创 2015-01-30 23:37:40 · 20331 阅读 · 0 评论