Deepseek与doubao|tongyi|wenxin三个大模型对比编写数据处理脚本

AI技术老狗（QA）

已于 2025-02-11 19:53:05 修改

阅读量1.3k

点赞数 8

文章标签： Deepseek 大模型 AI编写脚本

于 2025-02-11 17:16:40 首次发布

本文链接：https://blog.csdn.net/longxiaotian718/article/details/145575410

版权

‌ DeepSeek在编写脚本方面的能力非常强大，尤其在编程、推理和数学计算方面展现出了超越普通AI的能力‌。DeepSeek的核心优势在于其编程能力的显著提高，能够轻松应对前端脚本和后端逻辑的编写，大大降低了程序员编写代码的难度。

今天我们就对比下deepseek、豆包、通义千问、文心一言这四个进行一下对比，

对比的题目为：

《帮我写一个处理excel数据的python脚本，要求：100万条数据，去除重复数据，将处理好的数据存储到新的excel中。》

下面我们逐一看看那个AI的能力更优秀^_^

1、Deepseek

好的，我现在需要帮用户写一个处理Excel数据的Python脚本，具体要求是处理100万条数据，去重，然后存到新的Excel文件中。我得先理清楚思路，看看怎么一步步实现这个需求。

首先，用户的数据量很大，100万条，用普通的Excel处理方式可能不太行（非常棒棒），因为常规的库比如xlrd、openpyxl处理大数据可能效率不高，甚至无法支持。所以得考虑使用适合处理大数据的库，比如pandas。不过pandas在处理百万行数据时，虽然可行，但内存占用可能会很高，需要注意优化。

然后，去重的逻辑。用户可能指的是去除完全重复的行，或者根据某几列去重（非常棒）。这里用户没具体说明，所以假设是去除完全重复的行。在pandas中，可以用drop_duplicates()方法。不过需要注意，处理大数据时这个方法会不会有性能问题，可能需要分块处理或者优化参数。

存储到新的Excel中，同样要考虑文件格式。Excel的xlsx格式对于百万行数据来说，一个sheet可能放不下，因为Excel的单个sheet最大行数在104万左右（非常棒棒）。所以如果数据接近或超过这个数，可能需要分多个sheet或者使用xlsb格式。但pandas的to_excel方法可能不支持xlsb，可能需要用其他库，比如pyxlsb。不过用户可能希望用常规的格式，所以得提醒用户注意行数限制。

另外，处理大数据时，内存可能不足。可能需要逐块读取，比如使用pandas的chunksize参数（非常棒棒），分块读取和处理，然后再合并结果。不过去重的话，分块处理可能会导致无法全局去重，所以需要先读取所有数据，或者分块处理后再合并去重，但这样内存压力可能更大。这时候可能需要权衡，或者让用户确保数据可以分块处理，或者接受可能的内存使用。