可以在云盘下载打包文件包括API,数据
把原有的文件夹下面的object_detection删掉,这里面的(__init____.py)文件百度云盘上传不了,全都没成功,所以在把文件下来之后object_detection/object_detection/下的内容删掉,把object_detection.zip解压到object_detection里面。
链接:https://pan.baidu.com/s/1BkMpGOF1cVjJl2Hpip-Hpg
提取码:9stc
首先先下载图片
网友ACLJW的爬虫代码简单高效
pachong.py
# @File : pachong.py
import requests
import re
import os
from pypinyin import pinyin, lazy_pinyin
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
print("")
def getPageUrls(text,name):
re_pageUrl=r'href="(.+)">\s*
for i in range(len(pageUrls)):
pageUrl=pageUrls[i][0]
path = root + titles[i]+ "//"
if not os.path.exists(path):
os.mkdir(path)
if not os.listdir(path):
pageText=getHTMLText(pageUrl)
totalPics=int(re.findall(r'(.+))',pageText)[0])
downUrl=re.findall(r'href="(.+?)" class="">下载图片',pageText)[0]
cnt=1;
while(cnt<=totalPics):
L += 1
picPath=path+"%s.jpg"%str(L)
r=requests.get(downUrl)
with open(picPath,'wb') as f:
f.write(r.content)
f.close()
print('{} - 第{}张下载已完成\n'.format(titles[i],L))
cnt+=1
nextPageUrl=re.findall(r'href="(.+?)">下一张',pageText)[0]
pageText=getHTMLText(nextPageUrl)
downUrl=re.findall(r'href="(.+?)" class="">下载图片',pageText)[0]
return L
def main():
name=input("请输入你喜欢的明星的名字:")
nameUrl="http://www.win4000.com/mt/"+''.join(lazy_pinyin(name))+".html"
L = 0
try:
text=getHTMLText(nameUrl)
if not re.findall(r'暂无(.+)!',text):
root = "C:/Users/yanghe/Desktop/data/"+name+"//"
if not os.path.exists(root):
os.mkdir(root)
L = downPictures(text,root,name, L)
try:
nextPage=re.findall(r'next" href="(.+)"',text)[0]
while(nextPage):
nextText=getHTMLText(nextPage)
L = downPictures(nextText,root,name,L)
nextPage=re.findall(r'next" href="(.+)"',nextText)[0]
except IndexError:
print("已全部下载完毕")
except TypeError:
print("不好意思,没有{}的照片".format(name))
return
if __name__ == '__main__':
main()
打上标签
1.打标签用的软件是是labelImg.exe,这款软件操作简单。
labelImg.exe的快捷键
2.这里需要设置类别:
这里有一个open_dir是照片文件打开的目录,还有一个Ctrl+R更改默认xml文件地址。这里是为了生成和Pascal voc2007数据集一样格式的文件。
每打一张图片就保存一下,点下ok就行了,好像是自动保存的,超级简单。
给戚薇打上标签
图片爬到的质量有问题,大部分是侧脸,柳岩的全是戴帽子的照片,哎!!这明星的写真集照片看的眼都花了
Pascal voc2007数据集简单介绍
具体细节查看点这里:数据集:Pascal voc2007数据集分析
labelImg
在Pascal voc2007中(对于2007_000392.jpg)对于这张图有如下的对应xml文件。(2007_000392.jpg图在下面)
#2007_000392.xml
VOC2012
2007_000392.jpg //文件名
//图像来源(不重要)
The VOC2007 Database
PASCAL VOC2007
flickr
//图像尺寸(长宽以及通道数)
500
332
3
1 //是否用于分割(在图像物体识别中01无所谓)
//检测到的物体
horse //物体类别
Right //拍摄角度
0 //是否被截断(0表示完整)
0 //目标是否难以识别(0表示容易识别)
/