又是一个周末,外面的天气灰蒙蒙的, 接着上次的任务, 制定下今天的目标
- 采集百度或者搜狗汉语的gif图片 *****
- 格式化后入库 *****
- 前端资源引用变更
爬去 gif笔画图片
这里主要的知识点就一个
- BeautifulSoup python爬虫,应该都会用到;
- puppeteer nodejs版
文档地址:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id17
如果不用python, 用nodejs 推荐使用 puppeteer;
我这里用的是python 记录下代码, 主要的方法,
font = sys.argv[1]
def start():
r = rqs.get(url = url,headers=headers)
time.sleep(random.randint(1,4))
# print(r.content)
soup = BeautifulSoup(r.content, 'html.parser')
bh = soup.find('li',{"id": "stroke_count"})
bh_num = 0
if(bh):
bh_num = bh.contents[3].contents[0]
img_www = tit.get('data-gif')
r2 = rqs.get(img_www)
filename = str(ord(font))
# print(charcode)
fpath = os.path.join('/pyproject/spider/gifs/', filename)
# print(fpath)
with open(fpath+'.gif','wb+')as f :
f.write(r2.content)
r2.close()
r.close()
return bh_num
if __name__ == '__main__':
start()
保存的时候就设置好文件名称规则,这样一次性就到位,和文字一一对应关系,
格式化入库
其实这里主要是新图片和旧图片的命名规则, 我用的 charCodeAt , fromCharCode 方式; 因为前面的 jpg 也是这样的命名方式,这样可以减少很大的更改成本;不管数据增加,修改,最终都可以找到图片所对应的文字。
数据库 mongodb $set, upsert 方式,
前端新增引用资源
这里就不一一说明了,直接上图了,
今天的目标已经完成,打完收工~~~~