以图搜图
一个运用机器学习来搜女包的项目,以下是项目过程介绍&个人感想
一、实训简介
这次大三为期一个半月的实训,我参与的实训项目是做的是一个以图搜图的应用,用的是京东上的女包的数据。考虑到这样的一个场景,在网上浏览网页的时候遇到喜欢的包包,但是在电商网站的搜索栏中难以用语言描述出来,所以我们提供一个以图搜图的应用,以图片代替语言的形式,在某些语言难以描述清楚的情况下,帮助客户快速、准确找到想要的商品。
我们做这款应用的大概流程是:
>
- 从京东网站上抓取图片和文本数据
2. 利用caffe训练的模型抽取特征
3. 把抽取到的特征压缩成二进制码
4. 建立分段哈希表
然后客户传入图片数据,经过特征抽取和压缩成二进制码,再与分段哈希表中的数据做比较,找到相似的女包后,应用会返回电商的链接。
二、实训项目流程
1.抓取&分析数据
实现以图搜图的功能首先需要获得训练数据,需要抓取包包的图片和标签信息。 使用了Python的Request库,我这里抓取的是京东的数据,主要考虑以下几个原因:
>
- 京东的商品比较多,适合用于需要大数据量的机器学习训练
- 京东的标签比较齐全,方便我们训练时候标签的筛选
- 京东的分类的商品格式比较规范,便于我们抓取
抓取数据完数据之后需要对数据所在的网页进行分析,提取出我们需要的信息,这里用到了Python的BeautifulSoup的库。BeautifulSoup的库会把html网页