[小程序]小程序破千之笔顺图片采集篇（2）

最新推荐文章于 2024-12-18 13:47:42 发布

风不二

最新推荐文章于 2024-12-18 13:47:42 发布

阅读量415

点赞数

分类专栏：小目标 server python 文章标签：小程序爬虫 gif图片笔顺

本文链接：https://blog.csdn.net/ihtml5/article/details/113145914

版权

python 同时被 3 个专栏收录

12 篇文章

订阅专栏

server

3 篇文章

订阅专栏

小目标

2 篇文章

订阅专栏

本文介绍了使用Python的BeautifulSoup库和Node.js的Puppeteer库进行网络爬虫，特别是抓取并处理GIF图片的过程。通过设置文件命名规则，实现了新图片与文字的一一对应，并将图片格式化入库。此外，还提到了如何在MongoDB中使用$set和upsert操作更新数据，以及前端资源引用的变更。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

又是一个周末，外面的天气灰蒙蒙的，接着上次的任务，制定下今天的目标

采集百度或者搜狗汉语的gif图片 *****
格式化后入库 *****
前端资源引用变更

爬去 gif笔画图片

这里主要的知识点就一个

BeautifulSoup python爬虫，应该都会用到；
puppeteer nodejs版

文档地址：https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#id17

如果不用python，用nodejs 推荐使用 puppeteer；

我这里用的是python 记录下代码，主要的方法，

font = sys.argv[1]

def start():
	r = rqs.get(url = url,headers=headers)
	time.sleep(random.randint(1,4))
	# print(r.content)
	soup = BeautifulSoup(r.content, 'html.parser')
	bh = soup.find('li',{"id": "stroke_count"})
	bh_num = 0
	if(bh):
		bh_num = bh.contents[3].contents[0]
		img_www = tit.get('data-gif')
		r2 = rqs.get(img_www)
		filename = str(ord(font))
		# print(charcode)
		fpath = os.path.join('/pyproject/spider/gifs/', filename)
		# print(fpath)
		with open(fpath+'.gif','wb+')as f : 
			f.write(r2.content)
			r2.close()
	r.close()
	return bh_num

if __name__ == '__main__':
	start()