前段时间试用Cursor,想体验下Claude 3.5 Sonnet模型的写代码能力,据说是目前最强的编程大模型(没对比过R1,这里保持质疑)。
然后我花了十分钟写了一个婴儿脸部追踪监测Python脚本,并且搭配DeepSeek语音问答,可以提问宝宝喂养问题。
让我惊讶的是,十分钟的对话,Cursor写的代码居然能跑起来,基本功能都实现了,虽然很简陋,但它跑起来了!!!
写这个脚本主要因为最近晋升奶爸,想着搞一个摄像头来监测宝宝睡觉,初步想了两个基本功能(可以看作prompt)。
1、摄像头面部监测
摄像头实时追踪宝宝脸部,如果看不到则红字报警,避免宝宝脸埋到被子里。如果脸部重新出现,则解除警报。
最终效果还不错,我拿我自己测试了下,基本能准确捕捉脸部。
2、deepseek语音问答
摄像头接入麦克风,支持语音提问关于宝宝的喂养问题,然后语音转为文字并提问给deepseek,deepseek回答后,再转为语音播放出来,并将文本打在监控视频上。
执行流程如下:
我问了deepseek关于如何给宝宝洗屁屁的问题,大概过了十几秒,语音开始复述deepseek的回答,并把文字打在了监控视频里。这里忘了当时截图,后面补上。
总的来说,能在十几分钟内只通过提示语来实现一个稍有难度的应用,还是很不错了。虽然非常不稳定和超级慢,但如果和cursor对话慢慢调试,应该是可以开发出一个能稳定使用的应用。
这里大概讲下Cursor实现这两个功能用到的技术路径(Python包)。
- 人脸识别、视觉处理:cv2、mediapipe
- 图像处理:PIL
- 音频输入输出、声音处理:pyaudio、audioop
- 语音转文本:speech_recognition
- 文本转语音:pyttsx3
- 声音播放:winsound
- 访问deepseek接口,请求数据:openai、requests
- 线程管理:threading
- 数据处理:numpy
可以看到,虽然是一个不复杂的功能实现,但大大小小用到了十几个专业工具包,cursor Claude 3.5 Sonnet的代码推理和集成能力还是不错的,起码知道解决每个任务需要用到什么工具,而且还能正常运行,这一点挺难得了。