朱卫军 AI-CSDN博客

原创为什么Python中会有集合set类型？

因为set是数学意义上的集合，拥有唯一和无序的特性，即用来存放没有顺序且无重复的数据，并且元素是不可变的。确实set和list、tuple、dict一样，都是python的主要数据类型，它们的作用是不同的。: x-y，返回一个新的集合,包括在集合 x 中但不在集合 y 中的元素。: x&y，返回一个新的集合，包括同时在集合 x 和y中的共同元素。: x^y，返回一个新的集合，包括集合 x 和 y 的非共同元素。: x|y，返回一个新的集合，包括集合 x 和 y 中所有元素。

2025-06-12 15:46:20 88

原创程序员大佬的8个好习惯

现在开源项目渐渐成为主流，也赢得更多的支持和认可，比如Python、MySQL 、Linux、PyTorch等等，GitHub上有非常多优秀的仓库值得大家去学习、共创。所谓闭环思维，简单点讲，就是无论做什么事，都能有始有终，能形成一个完整的闭环。保持对程序代码的手感，非常重要‼️practice make perfect ，练习不光是练手，还要练习大脑的思考，手脑并进才是进步。提问者需要有总结归纳的能力，我觉得好的问题有3个标准，开放、有争议、可迁移，现在能提好问题的人并不多。6、善于提问，善于搜索。

2025-06-12 15:45:24 142

原创 Anaconda和Python是什么关系？

简单来说，Anaconda是一个集成了IDE、Notepad、Python、IPython、Python包、Python包管理工具的数据科学开发工具，并且Anaconda还支持R等非Python语言。Anaconda和Python相当于是汽车和发动机的关系，你安装Anaconda后，就像买了一台车，无需你自己安装发动机和其他零配件，而Python作为发动机提供Anaconda工作所需的内核。你可以把Anaconda看做成Python在数据科学领域的瑞士军刀，什么都给你安排好了，就等你下载安装。

2025-06-11 11:05:10 267

原创我常用的10个办公软件，值得推荐~

我电脑上几乎必装的效率软件有几个，Everything、Draw io、Snipaste、Orange、Xmind、DBeaver、Anaconda、iSlide、八爪鱼、Thinkcell，基本都是轻量化的软件，易打开易使用。下面一一介绍下我的使用心得，希望能帮助到你。

2025-06-11 11:00:50 419

原创 RAPIDS cuDF，让数据处理飞起来~

接触过数据科学和机器学习的小伙伴可能都会知道英伟达的RAPIDS，它是大名鼎鼎的GPU加速系统，通过GPU的并行能力来为数据处理、机器学习提升效率。RAPIDS拥有cuML、cuGraph、cuDF等众多核心组件库，cuDF专门负责数据处理，它是一个DataFrame库，类似Pandas，但cuDF运行在GPU上，所以它能提供高效的数据帧操作，支持数据加载、过滤、排序、聚合、连接等操作。

2025-06-10 11:52:14 597

原创 Python包管理器 uv替代conda？

有人问：python的包管理器uv可以替代conda吗?搞数据和算法的把conda当宝贝，其他的场景能替代。Python的包管理器有很多，pip是原配，uv是后起之秀，conda则主打数据科学。uv替代pip似乎只是时间问题了，它能做pip所有能做的事，不光可以作为包管理器，还能管理虚拟环境，而且比pip更快。而且快的不是一丢丢，你随便安装个pandas试试，uv几乎是pip速度的几十倍。

2025-06-10 11:51:19 281

原创采集tiktok商品数据教程，简单有效

爬虫是网络数据采集的简称，顾名思义就是利用http请求技术向网站发送数据请求，然后进行html解析并提取到需要的数据，可以使用Python等工具实现，这个过程看似简单，但暗藏很多机关，也导致很多人只是入了爬虫的门，但无法真正开发爬虫项目。这主要是因为网络上到处是反爬虫机制，爬虫会面对IP限制、验证码、数据加密、动态页面处理等各种问题，需要IP代理、OCR、数据解密、selenium动态加载等技术来解决。所以写爬虫要一路打怪升级，才能稳定地获取到高质量数据。

2025-06-09 13:50:22 1301

原创这4个数据采集工具支持低代码爬虫

总得来说，对于代码能力不强的童鞋来说，现成的爬虫软件是比较好的选择，直接图形化界面点点点，能避免很多麻烦。而且要主要遵守各网站的规则协议，不能获取非合理数据，这个是底线。

2025-06-09 13:47:17 1509

原创 Python打包exe，到底选PyInstaller还是Nuitka？

首先介绍下PyInstaller，PyInstaller特点是将乱七八糟的东西打包一起，比如各种依赖库，即使你的程序只使用了pandas很小一个功能，比如read_data，它也会将整个pandas打包，这就导致出来的exe文件非常的大。接下来出场的是Nuitka，使用Nuitka来打包exe文件，Nuitka会Python代码编译为C代码，生成更小的二进制文件，这样就没有各种依赖库和Python解释器一起打包的困扰了。如果是打包更加复杂的程序，软件的大小会进一步压缩，Nuitka的优势会更明显。

2025-06-09 13:45:19 378

原创超实用！轻松控制Python及依赖库版本

我们在日常管理Python项目时，非常重要的一点，是要对项目本身依赖的Python版本以及相关依赖库版本进行妥善管理，从而确保项目可以稳定持续的进行维护或迁移。通常我们会基于pippipreqscondauv等环境管理工具所导出的配置文件，对项目的相关依赖版本进行控制，但这些方式都只是辅助性质，并不会在Python项目代码运行时严格检查依赖库版本，这就带来了很多犯错的可能性。今天的文章中，我就将为大家介绍如何在自己的Python项目源码中调用相关快捷函数，实现对Python。

2025-06-08 11:51:42 409

原创 pandas实现sql的case when查询，原来这么简单！

sql中的case when的功能是实现单列或者多列的条件统计，其实Pandas也可以实现的，比如万能的apply方法，就是写起来复杂一些，没有sql case when那么直观。举个例子，一张考试成绩的表scores，有语文和数学的得分，现在给考生综合打分，两门都在90以上打A，都在80-90之间打B，其他则打C。逻辑也很简单，判断函数实现多列的判断条件，apply将该判断函数应用到数据集上，就能实现类似sql case when的功能。这里如果用sql来查询的话，使用case when就很简单明了。

2025-06-08 11:51:00 312

原创 Pandas比MySQL快？

知乎上有人问，处理百万级数据，Python列表、Pandas、Mysql哪个更快？Pands是Python中非常流行的数据处理库，拥有大量用户，所以拿它和Mysql对比也是情理之中。实测来看，MySQL > Pandas > Python列表，而且MySQl远快于后两个，几乎是碾压。这主要是数据库语言和编程语言的差异，其实是不同层面的东西。Python列表和Pandas是基于内存操作的，百万级数据内存占用高，可能会溢出。但Pandas算法更优，所以快于Python列表。

2025-06-07 15:00:34 361

原创丢掉pip，又一Python实用利器出现了～

pip是最常用的Python包管理工具，但现在出现了一个挑战者，速度更快，功能更全面和强大，而且被广泛用在AI MCP管理中，那就是uv。uv是一个拥有环境管理、依赖管理、Python版本管理、运行脚本、打包发布等多种功能的Python一体化工具链，可以说集齐了venv、virtualenv、pip、poetry能力于一身。据说uv对于包的解析安装速度比pip快数十倍，配置虚拟环境的速度也比virtualenv快数十倍。

2025-06-07 15:00:03 265

原创处理百万级数据，Python列表、Pandas、Mysql哪个更快？

它的数据存储在磁盘，得益于索引和查询优化，而且有分页查询、多线程等，比Pandas和Python列表快很多。如果内存占用大，Pandas可以分块读取，所以对于大数据比Python列表有更好的处理能力。Python列表和Pandas是基于内存操作的，百万级数据内存占用高，可能会溢出。，而且像排序、聚合等算法优化的比较好，一般会比Python列表更快3倍以上。Python列表（分钟级）需要对嵌套列表进行if遍历，再求和，这非常慢。Pandas（十秒级）加载全部数据到内存，可以算法优化，但也不快。

2025-06-06 18:42:27 283

原创如何评价MiniMax语音模型Speech-02近日登顶多个全球榜单？

最新发布的把TTS领域传统巨头拉下马来，直接登顶智能语音权威榜单，不管是WER（字错率），还是SIM（声纹相似度）等客观指标都领先国外顶级模型，真的非常不容易。因为一直以来国内与国外在人工智能TTS的差距比LLM其实更大，这次是国内团队首次在LLM基础模型层面对国外顶尖模型形成超越。为什么说Speech-02这次有很大突破？因为零样本语音克隆情况下，它的字错率要比真实人声低23%（中文0.83% vs 真人1.25%），而且实现了与真人97.3%的声纹相似度。这两项指标是语音模型的核心能力。

2025-06-06 18:41:28 863

原创我常用的4款热门爬虫工具，无代码搞定数据采集~

爬虫

2025-06-05 15:02:37 874

原创我常用的6个可视化软件工具，画图非常好看

数据可视化是数据结果的直观展示，好的可视化图表非常具有说服力，制作可视化图表的工具多种多样，主要分为BI、Python、JS这三大类，BI代表工具有Tableau、PowerBI，Python可视化库有Seaborn、Matplotlib等，JS可视化工具有Echarts、D3等。这次推荐我常用的5个可视化软件工具，可视化能力都非常强大，值得入手试试。

2025-06-04 16:53:11 879

原创利用Python将PDF文档转为MP3音频

Python中操作PDF的工具库主要是PyPDF2，但发现编码实在有点繁琐，我就换了另一个库pdfplumber，与PyPDF2语法类似，用起来还算流畅。最近在群里看到有人发张磊的新作《价值》电子书，这本今年刚出的畅销书盗版猖獗，我之前在微信读书里看过，对作者长期主义的观点深信不疑。微信读书有一个功能，可以将书里的文字转换为音频，而且声音优化的不错，比传统的机械朗读听起来舒服很多。简单来说，pyttsx3可以文字转语音，而且是离线工作的，这一点就很实用。我准备动手试试，将PDF书籍转成音频。

2025-06-04 10:10:39 291

原创 Modin，只需一行代码加速你的Pandas

它的语法和pandas非常相似，因其出色的性能，能弥补Pandas在处理大数据上的缺陷。PS：对于小白来说学习python不是件容易的事，需要花相当的时间去适应python的语法逻辑，而且要坚持亲手敲代码，不断练习。但Dask对Pandas并没有很好的兼容性，没办法像Modin那样，只需改变一行代码，就可以轻松使用Pandas处理大数据集。Vaex的核心在于惰性加载，类似spark，但它有独立的一套语法，使用起来和Pandas差异很大。只要你有使用Pandas的经验，就可以轻松上手Modin。

2025-06-04 10:06:42 320

原创 Pandas取代Excel？

Pandas的功能强大不在于比Excel数据处理能力强，而是能力边界更广，整个Python生态都可以为它所用，能结合sklearn、matplotlib、numpy、tensorflow等各种框架，处理多样化复杂任务、跨领域任务、重复性任务等数据问题。这个确实这样，在处理数据清洗、数据建模、大数据时，Excel运行速度比Pandas慢，因为Excel是图形化软件，依赖电脑性能，且多数情况下需要手工点点点操作，而Pandas直接跑Python代码，而且有并行优化机制，能快速处理数据。

2025-06-03 08:50:04 901

原创 7款电商数据必备的爬虫利器，强烈推荐~

在当今数据驱动的时代，自动化爬虫工具和软件成为了许多企业和个人获取数据的重要手段，特别是跨境电商、外贸等业务，对数据的需求非常大，比如对amazon、tiktok、shopee等网站数据的监测和获取。这里会介绍7款功能强大、操作简便的自动化爬虫工具，用好了可以更高效地进行数据采集，非常适合电商外贸场景。

2025-06-03 08:49:21 1089

原创 py爬虫的话，selenium是不是能完全取代requests?

就拿这次我用的Scraping Browser来举例，Scraping Browser是数据采集浏览器的意思，它是bright data提供的云浏览器，是有图形界面的有头浏览器，托管在亮数据平台上。但selenium需要配合一些解锁功能才能发挥作用，因为现在大网站反爬机制非常严格，已经从传统的IP识别升级到行为分析和动态对抗，像是浏览器指纹、验证码（CAPTCHA）、动态加密、异步加载等，一般简单的爬虫技术基本不可能抓取到稳定的电商数据。什么是法律允许的范围呢？否则，可能会面临法律风险。

2025-06-02 13:09:14 1784

原创 Pandas比MySQL快？

对了，其实你在Python中可以使用mysql的，有一个专门的sdk接口-pymysql，可以支持python连接mysql，不管是查询、建表、插入数据等都可以实现。它的数据存储在磁盘，得益于索引和查询优化，而且有分页查询、多线程等，比Pandas和Python列表快很多。实测来看，MySQL > Pandas > Python列表，而且MySQl远快于后两个，几乎是碾压。Python列表和Pandas是基于内存操作的，百万级数据内存占用高，可能会溢出。但Pandas算法更优，所以快于Python列表。

2025-06-02 13:06:08 381

原创我常用的几个Python金融数据接口库，非常好用~

yfinance可以获取股票历史价格数据（包括开盘价、最高价、最低价、收盘价、成交量）、实时价格数据等，你可以选择不同的时间尺度来获取数据，如日线、周线、月线等。它支持股票、期货、期权、基金、外汇、债券、指数、加密货币等多种金融产品的基本面数据、实时和历史行情数据、衍生数据的获取。Tushare数据种类比较丰富，涵盖股票市场数据（包括A股、港股、美股等）、期货、基金、债券、外汇、行业大数据、数字货币行情等区块链数据、经济指标、新闻和公告等非交易数据等多种金融产品的数据。

2025-05-30 15:54:24 843

原创 MiniMax V-Triune让强化学习（RL）既擅长推理也精通视觉感知

MiniMax 近日在github上分享了技术研究成果——V-Triune，这次的发布既是AI视觉技术也是应用工程上的一次“突围”，让强化学习（RL），其实缓解了传统视觉RL“鱼和熊掌不可兼得”的尴尬。之前，真的无解。比如，某些AI模型能很好地解决数学题、编程等推理任务，却在目标检测、图片识别、OCR（图片文字识别）等简单视觉任务上表现一般；而专注视觉感知类任务的模型，遇到需要深度推理和思考的问题时就如同降智一般。举个生活中的例子，班级里有的同学只会做数学题，却看不懂试卷上的图片；

2025-05-30 14:46:34 1044

原创厉害了，这18张Python数据科学速查小抄

比如说Pandas、Numpy、Matplotlib、Sklearn、NLTK等，还有深度学习领域的Keras、Tensorflow、Pytorch、Caffe等，都是顶尖的数据科学工具。目前在主流的数据科学领域一般有三大生态，一是以sas、matlab、spss等为代表的商业软件生态，二是围绕R语言建立起来的开源生态，三是目前较为火热的Python数据科学生态。数据科学已经发展成为一个庞大的系统，包含数学、统计学、概率论、计算机、数据库、编程等各种理论技术。

2025-05-29 15:27:27 293 1

原创干货 | 50题带你玩转numpy

print(Z)

2025-05-29 15:26:53 915

原创低代码爬虫利器结合Python Selenium，自动采集商品数据

基于当前跨境电商的现状，精准数据采集和分析已经是行业内绕不开的门槛，亮数据提供的代理和采集方案能极大地节省开发成本，其实是高性价比的选择，再结合DeepSeek的AI功能，能轻松搞定数据系统设计和开发，对于中小团队非常受用。据了解，现在亮数据是有促销优惠的，首充多少送多少，相当的划算！

2025-05-28 17:31:04 1524

原创 5个炫酷的python 数据可视化工具，你都用过吗？

Matplotlib的特点有足够的自定义空间让开发者去设计自己的图表，它把图表的每一个元素都拆解来，给到自定义函数、参数，让你去鼓捣。Seaborn是在matplotlib的基础上进行了更高级的API封装，从而使得作图更加容易，在大多数情况下使用seaborn能做出很具有吸引力的图，而使用matplotlib就能制作具有更多特色的图。用过 Python数据分析的小伙伴都知道，Python不光能高效处理数据，还能实现各种实用且酷炫的可视化，光是制作图表的第三方库就有几十种，而且各有千秋，下面来梳理梳理。

2025-05-28 11:54:52 315

原创 Python包管理器 uv替代conda？

有人问：python的包管理器uv可以替代conda吗?搞数据和算法的把conda当宝贝，其他的场景能替代。Python的包管理器有很多，pip是原配，uv是后起之秀，conda则主打数据科学。uv替代pip似乎只是时间问题了，它能做pip所有能做的事，不光可以作为包管理器，还能管理虚拟环境，而且比pip更快。而且快的不是一丢丢，你随便安装个pandas试试，uv几乎是pip速度的几十倍。

2025-05-28 11:53:38 765

原创我常用的一款免费爬虫软件，非常强大，值得推荐

最近DeepSeek大火，对话质量之高一度超过ChatGPT、Claude等主流海外模型。你知道什么决定了大模型训练结果的好坏吗?除了算法外，训练数据的质和量起着决定性作用，而很多AI公司用到的训练数据就是利用爬虫技术从全网抓取的，这也是OpenAI、Anthropic等公司的核心竞争力。

2025-05-26 13:45:06 1589

原创 Python打包exe，到底选PyInstaller还是Nuitka？

首先介绍下PyInstaller，PyInstaller特点是将乱七八糟的东西打包一起，比如各种依赖库，即使你的程序只使用了pandas很小一个功能，比如read_data，它也会将整个pandas打包，这就导致出来的exe文件非常的大。接下来出场的是Nuitka，使用Nuitka来打包exe文件，Nuitka会Python代码编译为C代码，生成更小的二进制文件，这样就没有各种依赖库和Python解释器一起打包的困扰了。如果是打包更加复杂的程序，软件的大小会进一步压缩，Nuitka的优势会更明显。

2025-05-26 13:42:36 296

原创推荐我常用的5个爬虫插件&工具，值得收藏~

无论是需要简单的数据抓取，还是复杂的数据挖掘和分析，市场上的爬虫工具都能提供相应的解决方案。同时，使用爬虫软件时，也应遵守相应的法律法规，尊重数据的版权和隐私。亮数据是一款强大的数据采集工具，以其全球代理IP网络和强大数据采集技术而闻名。它能够轻松采集各种网页数据，包括产品信息、价格、评论和社交媒体数据等。爬虫，又称为网络爬虫或网页爬虫，是一种自动浏览互联网的程序，它按照一定的算法顺序访问网页，并从中提取有用信息。八爪鱼是一款面向非技术用户的桌面端爬虫软件，以其可视化操作和强大的模板库而受到青睐。

2025-05-26 13:41:55 1143

原创 python与mysql怎么完成大量的数据交互？

有个小插曲，MySQL和MariaDB相当于姐姐妹妹的关系，两者由同一个人（Widenius）创建的。MySQL被Oracle收购后，Widenius先生觉得不爽，于是搞了个MariaDB，可以完全替代MySQL。所以本文讨论的是利用PyMySQL连接MySQL数据库，进行增删改查操作，以及存储大批量数据。1、通过SQL的insert方法一条一条导入，适合数据量小的CSV文件，这里不做赘述。，安装过程很简单，一路Next Step，不过要记好密码。方法导入，速度快，适合大数据文件，也是本文的重点。

2025-05-22 17:41:54 1683 3

原创为什么自学Python看不进去？

首先学习python一定要以为导向！盲目看教程，结果大多是浅尝辄止，从入门到放弃。我想告诉你我的经验，很多小伙伴留言时都会提到不知道自己是否适合学习Python，害怕自己零基础入门难，或者文科生学不会。其实最好的办法就是去尝试。

2025-05-22 17:41:07 847

原创在Jupyter Lab中搭建Python工作流

是我最喜欢的编辑器，在过往的文章中也给大家介绍过很多相关资源和实用插件，但本文要给大家介绍的。插件没有之一，因为它的核心功能就是帮助我们解决数据分析工作中非常重要的问题——文件组织成工作流的能力，为了方便演示，这里我们创建几个带有简单流程代码的。保存之后，就完成了本地环境下单个节点的必要参数设置，同样的将其他。还有很多其他的实用功能，感兴趣的朋友可以前往官方文档（界面长啥样（我使用的主题感兴趣的朋友可以通过。插件的安装方法，我们执行下列命令即可安装。赋予了我们通过交互的方式将若干个。

2025-05-21 23:06:02 799

原创机器学习中的泛化能力

高考试题一般是新题，谁也没做过，平时的刷题就是为了掌握试题的规律，能够举一反三、学以致用，这样面对新题时也能从容应对。这种规律的掌握便是泛化能力，有的同学很聪明，考上名校，很大程度上是该同学的泛化能力好。了训练数据的特性，过拟合模型在训练过程中产生的损失很低，但在预测新数据方面的表现却非常糟糕。学习的目的是学到隐含在数据背后的规律，对具有同一规律的学习集以外的数据，经过训练的网络也能给出合适的输出，该。由此可见，经训练样本训练的模型需要对新样本做出合适的预测，这是泛化能力的体现。能力，什么是泛化能力呢？

2025-05-21 23:05:20 768

原创高效的10个Pandas函数，你都用过了吗？

我们只知道当年度的值value_1、value_2，现在求group分组下的累计值，比如A、2014之前的累计值，可以用cumsum函数来实现。比如有一个序列[1,7,5,3]，使用rank从小到大排名后，返回[1,4,3,2]，这就是前面那个序列每个值的排名位置。Query是pandas的过滤查询函数，使用布尔表达式来查询DataFrame的列，就是说按照列的规则进行过滤操作。Rank是一个排名函数，按照规则（从大到小，从小到大）给原序列的值进行排名，返回的是排名后的名次。

2025-05-21 22:59:25 1008

原创如何理解Python中的yield用法?

的函数是一个生成器，这个生成器有一个方法就是next，next就相当于“下一步”生成哪个数，这一次的next开始的地方是接着上一次的next停止的地方执行的。但是，如果数据集有某种逻辑，就不必存储在一个列表中，只需编写一个生成器，它将在需要时生成这些值，基本不占用内存。所以调用next的时候，生成器并不会从函数的开始执行，只是接着上一步停止的地方开始，然后遇到。的同胞兄弟来看，他们都在函数中使用，并履行着返回某种结果的职责。第三次调用也是如此，返回生成的值（3），生成器耗尽，程序终止；的函数被称为生成器。

2025-05-21 22:58:38 332

原创推荐3个爬虫利器，再也不用手搓代码了～

亮数据平台提供了强大的数据采集工具，比如Web Scraper IDE、亮数据浏览器、SERP API等，能够自动化地从网站上抓取所需数据，无需分析目标平台的接口，直接使用亮数据提供的方案即可安全稳定地获取数据。与屏幕抓取不同，屏幕抓取只复制屏幕上显示的像素，网络爬虫提取的是底层的HTML代码，以及存储在数据库中的数据。你可以使用Python编写爬虫代码实现数据采集，也可以使用自动化爬虫工具，这些工具对爬虫代码进行了封装，你只需要配置下参数，就可以自动进行爬虫。

2025-05-19 21:00:48 1489

100个Github Python项目

16个matplotlib绘图技巧

60个Numpy函数和方法解析

空空如也