- 博客(634)
- 收藏
- 关注
原创 推荐3个爬虫利器,再也不用手搓代码了~
亮数据平台提供了强大的数据采集工具,比如Web Scraper IDE、亮数据浏览器、SERP API等,能够自动化地从网站上抓取所需数据,无需分析目标平台的接口,直接使用亮数据提供的方案即可安全稳定地获取数据。与屏幕抓取不同,屏幕抓取只复制屏幕上显示的像素,网络爬虫提取的是底层的HTML代码,以及存储在数据库中的数据。你可以使用Python编写爬虫代码实现数据采集,也可以使用自动化爬虫工具,这些工具对爬虫代码进行了封装,你只需要配置下参数,就可以自动进行爬虫。
2025-05-19 21:00:48
372
原创 Scraper APIs:一款高效的电商数据采集工具,适合新手
最近用到一个非常简单的高级爬虫工具,亮数据的Scraper APIs,你可以理解成一种爬虫接口,它帮你绕开了IP限制、验证码、加密等问题,无需编写任何的反爬机制处理、动态网页处理代码,后续也无需任何维护,就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。1、在云上向Tiktok发出http数据请求 2、模拟登陆、配置IP代理、动态访问、识别验证码、破解加密数据等 3、解析获取的HTML,提取重要的字段,输出为json格式。
2025-05-19 16:05:17
862
原创 Vaex :突破pandas,快速分析100G大数据量
而vaex只会对数据进行内存映射,而不是真的读取数据到内存中,这个和spark的懒加载是一样的,在使用的时候 才会去加载,声明的时候不加载。Python中的pandas是大家常用的数据处理工具,能应付较大数据集(千万行级别),但当数据量达到十亿百亿行级别,pandas处理起来就有点力不从心了,可以说非常的慢。这里用的是hdf5文件,hdf5是一种文件存储格式,相比较csv更适合存储大数据量,压缩程度高,而且读取、写入也更快。换上今天的主角vaex,读取同样的数据,做同样的平均值计算,需要多少时间呢?
2025-05-18 21:43:34
471
原创 如何理解Python中的yield用法?
的函数是一个生成器,这个生成器有一个方法就是next,next就相当于“下一步”生成哪个数,这一次的next开始的地方是接着上一次的next停止的地方执行的。但是,如果数据集有某种逻辑,就不必存储在一个列表中,只需编写一个生成器,它将在需要时生成这些值,基本不占用内存。所以调用next的时候,生成器并不会从函数的开始执行,只是接着上一步停止的地方开始,然后遇到。的同胞兄弟来看,他们都在函数中使用,并履行着返回某种结果的职责。第三次调用也是如此,返回生成的值(3),生成器耗尽,程序终止;的函数被称为生成器。
2025-05-18 21:42:47
234
原创 8个超好用的Python内置函数,提升效率必备
第一、第二个元素先进行函数操作,生成的结果再和第三个元素进行函数操作,以此类推,最终生成所有元素累积运算的结果。函数轻松完成了任务,它用于过滤序列,过滤掉不符合条件的元素,返回一个迭代器对象。函数会把序列里的每一个元素用指定的方法加工一遍,最终返回给你加工好的序列。函数用于对序列里的元素进行顺序标注,返回(元素、索引)组成的迭代器。函数类似,都是将序列里的每个元素映射到函数,最终返回结果。会根据提供的函数,对指定的序列做映射,最终返回迭代器。接受一个序列,将序列里的元素反转,并最终返回迭代器。
2025-05-18 21:41:49
198
原创 python新手必躺的5大坑
上面代码构建了一个字典,依次向字典中添加信息,如果某个键已经存在,则以某种方式修改该键的值;元组一旦创建就无法更改元素,看似没有什么用处,其实元组的作用大着呢!元组也能作为字典的键,所以如果你需要存储数据,可以使用带有元组键的字典,比如说经纬度数据。,并且可以在函数中使用元组,返回多个值。上面元组中有两个元素,分别被赋给a,b。接受一个list作为参数,当键不存在时,则返回一个空列表作为对应值。上面a变成之前的c,b变成之前的a,c变成之前的b。这是一个嵌套循环操作,为提高代码效率,完全可以用。
2025-05-18 21:41:11
676
原创 python读写excel等数据文件方法汇总
如:txt、csv、excel、json、剪切板、数据库、html、hdf、parquet、pickled文件、sas、stata等等。fromfile方法可以读取简单的文本数据或二进制数据,数据来源于tofile方法保存的二进制数据。python用于读写excel文件的库有很多,除了前面提到的pandas,还有xlrd、xlwt、openpyxl、xlwings等等。python处理数据文件第一步是要读取数据,文件类型主要包括文本文件(csv、txt等)、excel文件、数据库文件、api等。
2025-05-18 21:39:54
789
原创 python自动化办公太难?学这些就够用了
相信爬虫是大家最感兴趣的,python 爬虫有很多的实现库,比如:urllib、requests、scrapy 等,以及 xpath、beautifulsoup 等解析库。python 处理邮件也是极其便利的,smtplib、imaplib、email 三个库配合使用,实现邮件编写、发送、接收、读取等一系列自动化操作,省时省力。自动化办公无非是 excel、ppt、word、邮件、文件处理、数据分析处理、爬虫这些,这次我就来理一理 python 自动化办公的那些知识点。如果一个个手工操作,那真的心累。
2025-05-18 21:38:47
576
原创 numba,让python速度提升百倍
以上代码是一个python函数,用以计算numpy数组各个数值的双曲正切值,我们使用了numba装饰器,它将这个python函数编译为等效的机器代码,可以大大减少运行时间。python由于它动态解释性语言的特性,跑起代码来相比java、c++要慢很多,尤其在做科学计算的时候,十亿百亿级别的运算,让python的这种劣势更加凸显。使用numba非常简单,只需要将numba装饰器应用到python函数中,无需改动原本的python代码,numba会自动完成剩余的工作。不经numba加速的函数执行时间。
2025-05-17 22:15:01
845
原创 xlwings,让excel飞起来!
excel已经成为必不可少的数据处理软件,几乎天天在用。python有很多支持操作excel的第三方库,xlwings是其中一个。
2025-05-17 22:14:27
335
原创 10个炫酷的python 数据可视化工具,你都用过吗?
Matplotlib的特点有足够的自定义空间让开发者去设计自己的图表,它把图表的每一个元素都拆解来,给到自定义函数、参数,让你去鼓捣。Seaborn是在matplotlib的基础上进行了更高级的API封装,从而使得作图更加容易,在大多数情况下使用seaborn能做出很具有吸引力的图,而使用matplotlib就能制作具有更多特色的图。用过 Python数据分析的小伙伴都知道,Python不光能高效处理数据,还能实现各种实用且酷炫的可视化,光是制作图表的第三方库就有几十种,而且各有千秋,下面来梳理梳理。
2025-05-16 17:13:29
1017
原创 MiniMax语音模型Speech-02近日登顶多个全球榜单,详细技术解析
MiniMax最新发布的Speech-02把TTS领域传统巨头OpenAI、ElevenLabs拉下马来,直接登顶智能语音权威榜单Artificial Arena,不管是WER(字错率),还是SIM(声纹相似度)等客观指标都领先国外顶级模型,真的非常不容易。因为一直以来国内与国外在人工智能TTS的差距比LLM其实更大,这次是国内团队首次在LLM基础模型层面对国外顶尖模型形成超越。为什么说Speech-02这次有很大突破?
2025-05-16 17:12:53
729
原创 我常用的几个爬虫效率工具,附教程步骤
爬虫技术是数据采集的核心手段,涉及到http请求、html解析、正则处理等技术,算是比较复杂的编程开发,对于很多人来说是不低的门槛。我最常用Python来实现爬虫,因为有很多的库可以用,不用写那么多轮子,但遇到频繁的采集需求也会比较吃力,毕竟要敲代码。为了偷点懒,我找了一些不需要代码或者低代码就可以用的爬虫软件,能点点点就配置好爬虫,非常的方便。下面是7个我常用的爬虫软件,分三大类,零代码工具、半自动化工具、低代码工具,都很好操作。
2025-05-12 15:17:48
1750
原创 基于亮数据采集跨境电商商品数据,附详细步骤
最近用到一个非常简单的高级爬虫工具,亮数据的Scraper APIs,你可以理解成一种爬虫接口,它帮你绕开了IP限制、验证码、加密等问题,无需编写任何的反爬机制处理、动态网页处理代码,后续也无需任何维护,就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。1、在云上向Tiktok发出http数据请求 2、模拟登陆、配置IP代理、动态访问、识别验证码、破解加密数据等 3、解析获取的HTML,提取重要的字段,输出为json格式。
2025-05-12 15:15:56
2001
原创 这些Python可视化工具画图真的好看,强烈推荐!
用过 Python数据分析的小伙伴都知道,Python不光能高效处理数据,还能实现各种实用且酷炫的可视化,光是制作图表的第三方库就有几十种,而且各有千秋,下面来梳理梳理。
2025-05-12 07:36:04
320
原创 怎样在 Python 中创建一个自定义函数?
Python函数一般用来实现某个功能模块,可以反复使用,能极大的提升编程效率,多用函数也是写代码的好习惯。可以看到这个简单的函数五脏俱全,实现了两个字符串的拼接,你只需要传入参数,就可以得到拼接后的字符串。可以看到匿名函数也能很好的实现拼接字符串的操作,它很适合一些简短的功能,不需要冗长的代码去实现。匿名函数一般用于定义简单的、一次性用的函数,对于复杂的功能不建议用匿名函数来写。但对于很复杂的函数,匿名函数的表达式就很难写出来,就算写出来也不易阅读。下面的函数用于拼接两个字符串。#用于拼接两个字符串。
2025-05-11 20:54:44
414
原创 Python的风格应该是怎样的?除语法外,有哪些规范?
列表推导式可以简化列表的创建,既实用还能让代码更加美观,但列表推导式只适合创建逻辑简单的列表,对于很复杂且代码量大的列表,是不建议用列表推导式的,比如以下案例。在Python中大家可以把一个复杂的功能,用多个函数去分解,一个函数代码行数最好不要超过十行,如果确实需要很多代码,那就进行分解,多写几个函数来实现。Python是鼓励用函数和类去封装一些重复用的功能,这样能增加代码的可读性,也减少不必要的劳动,但一些人就是喜欢写很长的代码,导致看着很冗余。风格的,多多少少都会让人有点难受。
2025-05-11 20:53:23
363
原创 为什么爬虫非要用python?用C语言、C++、C#或者java不行吗?
当然python的第三方库生态也为Python爬虫提供了诸多便利,比如requests、bs4、scrapy,这些库将爬虫技术进行了高级封装,提供了便捷的api接口,原来需要几十行代码解决的问题,现在只需要一行就可以搞定。requests 库提供了丰富的功能和灵活性,支持多种请求类型(如 GET、POST、PUT、DELETE 等),可以发送带有参数、头信息、文件等的请求,并且能够处理复杂的响应内容(如 JSON、XML 等)。它提供了丰富的API,可以轻松地读取、解析、创建和修改XML和HTML文档。
2025-05-11 20:52:24
656
原创 Python需不需要每写一个项目就创建一个环境?
虚拟环境的作用是给Python项目单独设置一个封闭空间,这个封闭空间包含了专属的Python解释器,pip工具,以及site-packages 目录,用于安装各种依赖,这样就不会影响全局环境和其他项目,也更更好地对本项目进行依赖版本的管理。在进行Python开发项目时,经常会用到各种依赖库,为了保持每个代码项目的独立性,以及避免与其他项目库相互干扰,导致版本冲突,这时候单独创建一个。virtualenv是第三方库,所以需要先安装virtualenv,可以使用pip来安装。
2025-05-11 20:51:05
447
原创 为什么大公司不用pandas取代excel?
何况和Excel不存在竞争关系,反而是合作关系。Pandas是基于Python的数据处理编程语言,能支持Excel格式文件的导入导出,Excel是商业图形化表格软件,使用场景不一样,用户对象不一样。Excel的最大的特点在于,这是任何其他同类工具替代不了的,很难想象你不用xlsx,而是发个py文件给老板。所以Pandas的优势对于Excel用户来说形同虚设,你总不能要求财务的人放弃Excel,哼哧哼哧的用Pandas整理账单报表。
2025-05-11 20:50:15
574
原创 使用Python爬虫的2大原因和6大常用库
爬虫其实就是请求http、解析网页、存储数据的过程,并非高深的技术,但凡是编程语言都能做,连Excel VBA都可以实现爬虫,但Python爬虫的使用频率最高、场景最广。这可不仅仅是因为Python有众多爬虫和数据处理库,还有一个更直接的原因是Python足够简单。Python作为解释型语言,不需要编译就可以运行,而且采用动态类型,灵活赋值,同样的功能实现,代码量比Java、C++少很多。而且Python既可以面向对象也可以面向过程编程,这样就简化了爬虫脚本编写的难度,即使新手也可以快速入门。
2025-05-09 22:30:47
1018
原创 丢掉pip,又一Python实用利器出现了~
pip是最常用的Python包管理工具,但现在出现了一个挑战者,速度更快,功能更全面和强大,而且被广泛用在AI MCP管理中,那就是uv。uv是一个拥有环境管理、依赖管理、Python版本管理、运行脚本、打包发布等多种功能的Python一体化工具链,可以说集齐了venv、virtualenv、pip、poetry能力于一身。据说uv对于包的解析安装速度比pip快数十倍,配置虚拟环境的速度也比virtualenv快数十倍。
2025-05-09 22:13:18
311
原创 Pandas比MySQL快?
知乎上有人问,处理百万级数据,Python列表、Pandas、Mysql哪个更快?Pands是Python中非常流行的数据处理库,拥有大量用户,所以拿它和Mysql对比也是情理之中。实测来看,MySQL > Pandas > Python列表,而且MySQl远快于后两个,几乎是碾压。这主要是数据库语言和编程语言的差异,其实是不同层面的东西。Python列表和Pandas是基于内存操作的,百万级数据内存占用高,可能会溢出。但Pandas算法更优,所以快于Python列表。
2025-05-08 20:53:57
377
原创 批量采集虾皮电商商品数据,低代码操作
数据采集是比较繁琐的技术,特别对于中小公司和个人,我曾经想研究下某音用户短视频的评论情感倾向,需要大概100万条级以上的数据,光是写代码有上千行,虽然是公开数据,但会面临各种反爬手段,最后脚本磨了两三天才能正常稳定的运行。
2025-05-08 20:38:31
1755
原创 Python中同步&异步编程原来这么简单!
有人问,Python中所谓的同步异步编程到底是什么呀?同步异步其实很好理解,比如你去某站下载视频,有两种情况,分别代表同步和异步。1、点击下载视频A,等A下载好后,再点击下载视频B,以此类推下载所有视频。2、点击下载视频A,不管是否下载好,然后立即点击下载视频B,各下载任务同时进行中,以此类推下载所有视频。第1种是同步,是排队执行,只有前一个任务完成后才执行后一个任务。第2种是异步,边干边等,利用等待时间去处理其他任务,可以多个任务灵活并行。如果不考虑网速带宽,第1种效率很明显会低于第2种。
2025-05-07 21:09:39
357
原创 我常用的几款免费爬虫软件,非常强大,值得推荐
Instant Data Scraper 是一款非常简单易用的网页数据爬虫插件,在Chrome上安装使用,你不需要任何代码知识,只需要点几下鼠标,就可以把你想要的数据下载到表格里面。不管是文本、图片、视频还是表格,八爪鱼都能采集,并且它提供了非常丰富的采集模板,比如购物、新闻、短视频等主流平台都有,八爪鱼已经配置好了采集的流程,一键可以实现数据爬虫。如果你懒得配置爬虫流程,可以使用八爪鱼的爬虫任务模板,数据采集流程已经全部设置好了,你只需要一键启动,就可以抓取数据。
2025-05-07 20:55:34
1769
原创 我常用的一些VsCode插件,强烈推荐~
AI Toolkit则主要用来下载、微调、测试大模型,它的模型库更加丰富,有75个线上模型,以及可以连接本地模型,而且提供了模型测试 Playground、模型微调 Fine-tuning等功能,可以让你更好的使用大模型。vscode插件非常多,我一般会看most popular排序,前50的很多是高频必备插件,像是Pylance、jupyter、docker、prettier、copilot、wsl等,堪称写代码神器,安装了绝对不会错。timing进行时间戳转换。
2025-05-07 19:57:43
287
原创 教你使用Python批量读写excel文件
与其花费好几天去做这些繁琐无意义的操作,不如学学python如何批量读写excel文件,几分钟就能搞定一整天的活!xlwt能够对excel文件进行写入和修改,你可以设定条件检索数据并修改,很方便的重复大量工作。xlrd,作为python第三方库,可以从excel电子表格中检索信息。当面对成百上千个excel文件,需要重复读写时,你会不会很头大呢?通俗点讲,你可以用python读取excel文件里的任何数据。对excel进行写入,需要用到python的另一个第三方库-
2025-05-01 11:22:18
326
原创 一文搞懂Python迭代器和生成器
从形式上来看,生成器表达式和列表推导式很像,仅仅是将列表推导式中的[]替换为(),但是两者差别挺大,生成器表达式可以说组合了迭代功能和列表解析功能。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。在Python中,这种一边循环一边计算的机制,称为生成器(Generator)。所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?但是,受到内存限制,列表容量肯定是有限的。
2025-05-01 11:21:38
545
原创 小白如何入门Python爬虫
网络爬虫,其实叫作网络数据采集更容易理解。就是通过编程向网络服务器请求数据(HTML表单),然后解析HTML,提取出自己想要的数据。归纳为四大步:根据url获取HTML数据解析HTML,获取目标信息存储数据重复第一步这会涉及到数据库、网络服务器、HTTP协议、HTML、数据科学、网络安全、图像处理等非常多的内容。但对于初学者而言,并不需要掌握这么多。
2025-05-01 11:20:54
1124
原创 Python + AI轻松开发GUI小应用,太酷啦!
用户在输入框可以先输入一个成语,AI会成语接龙生成另一个成语,以此往复,所有成语都需要记录在展示框中,并打上用户、AI的标签。实现的功能是,用户直接输入一个成语,该应用会根据接龙规则,给出新的成语,然后根据你的输入再接龙,所有成语内容会被记录下来。实现的功能是,用户只需要输入一段话,比如“请生成一个关于勇敢的小兔子的故事”,AI就会根据需求生成一段几百字的儿童故事。如下图展示,我输入要求 “请生成一个关于勇敢的小兔子的故事”,该应用根据要求生成了一个小兔子的故事,速度挺快的。
2025-04-28 13:48:58
191
原创 亮数据,零代码快速采集电商数据,非常方便~
最近用到一个非常简单的高级爬虫工具,亮数据的Scraper APIs,你可以理解成一种爬虫接口,它帮你绕开了IP限制、验证码、加密等问题,无需编写任何的反爬机制处理、动态网页处理代码,后续也无需任何维护,就可以“一键”获取Tiktok、Amazon、Linkedin、Github、Instagram等全球各大主流网站数据。1、支持大批量的自动提交url网址,不像刚刚那样的手动复制进去 2、支持对抓取的数据进行处理、清洗、存储操作,配合Pandas、Numpy库,非常方便。
2025-04-28 13:48:17
2624
原创 Roo Code,VsCode AI编程又一神器来了~
用了Roo Code一段时间,我的感受是这是一个能辅助快速开发的代码生成能手,Roo Code系统对prompt流程做了优化,能更精准和高质量的输出代码,对于编程小白和高手都很适用。其实当前的AI编程只是一个技能增强的角色,可以帮你高效写流水线代码,但不能代替程序员写出工程项目,凡是需要设计、优化、组装的事情还是得人来做,目前的AI做不到。我只是给了句简单的提示,但游戏的UI效果还是很不错的,如果再润色下,是能媲美一些商业小游戏的。配置好模型后,你能根据需求设置R1模型相关的参数,以及系统权限配置。
2025-04-27 21:07:50
312
原创 Draw.io,我常用的一款开源流程图软件,强烈推荐
前面说过,Draw.io是一款免费的流程图绘制工具,你可以在本地或者云端创建和分享各种流程图。Draw.io不受平台限制,支持直接在网页浏览器中使用Draw.io,也可以下载客户端,或者使用Vscode、Jupyter Lab插件,你觉得哪种方便就用哪种,可以说非常的宠爱用户了。它提供了一个类似画板的直观的拖放界面,你可以通过选择预设的形状和连接线来快速构建流程图,因此具有很大的可定制空间。
2025-04-27 21:06:12
2301
原创 超强!DeepSeek+HTML制作数据看板,老板看了都点赞
DeepSeek以极强的推理能力,支持生成各种代码,比如Python、SQL、Matlab、JS、HTML等,你可以拿这些代码放到编译器里,就能直接跑出结果,比如机器学习算法、exe应用、可视化图表、web应用。最近发现了一个好玩的场景,使用DeepSeek生成HTML来制作可视化数据看板。数据看板是职场中常见的数据展现形式,一般用Excel、Tableau、PowerBI来做,但现在DeepSeek也能帮你完成简单的看板搭建工作。
2025-04-27 21:05:22
370
原创 非常好用的3个地图可视化工具,强烈推荐~
地图可视化是数据分析中常用的场景,比如做轨迹分析、区域分布分析、地理空间分析等,都会用到地图可视化,通过地图的可视化表达能非常清晰的展现数据在地理空间上的分布。这里推荐3个我常用的地图可视化分析工具,可视化分析和渲染能力都非常的强大。其中有依赖Python的第三方可视化库-Basemap,还有基于web的可视化工具-Kepler.gl,也有独立的BI可视化软件-Tableau。
2025-04-27 21:03:45
415
原创 Orange,可以拖拉拽的Python数据挖掘软件,强烈推荐~
Python是数据挖掘的核心编程语言,但一般门槛较高,你得掌握pandas、numpy、sklearn、keras等复杂的数据处理和机器学习框架,才能写一些数据挖掘算法,因此让不少人望而却步。总的来说,Orange比较适合编程新手,或者想节省时间的分析人员,它适用于数据挖掘、数据分析、统计分析、机器学习等多个领域,如果使用熟练,一点不亚于Python编程。这个数据工具有丰富的组件可以使用,像数据IO、数据转换、数据可视化、机器学习算法、模型评估等,不需要额外写代码,拿来即用,参数也是可视化调整。
2025-04-27 21:02:53
354
原创 Orange,可以拖拉拽的Python数据挖掘软件,强烈推荐~
Python是数据挖掘的核心编程语言,但一般门槛较高,你得掌握pandas、numpy、sklearn、keras等复杂的数据处理和机器学习框架,才能写一些数据挖掘算法,因此让不少人望而却步。总的来说,Orange比较适合编程新手,或者想节省时间的分析人员,它适用于数据挖掘、数据分析、统计分析、机器学习等多个领域,如果使用熟练,一点不亚于Python编程。这个数据工具有丰富的组件可以使用,像数据IO、数据转换、数据可视化、机器学习算法、模型评估等,不需要额外写代码,拿来即用,参数也是可视化调整。
2025-04-24 18:04:50
306
原创 pandas实现sql的case when查询,原来这么简单!
sql中的case when的功能是实现单列或者多列的条件统计,其实Pandas也可以实现的,比如万能的apply方法,就是写起来复杂一些,没有sql case when那么直观。举个例子,一张考试成绩的表scores,有语文和数学的得分,现在给考生综合打分,两门都在90以上打A,都在80-90之间打B,其他则打C。逻辑也很简单,判断函数实现多列的判断条件,apply将该判断函数应用到数据集上,就能实现类似sql case when的功能。这里如果用sql来查询的话,使用case when就很简单明了。
2025-04-24 18:03:34
296
原创 为什么 requests 不是 python 标准库?
1、requests作为第三方库能有更好的灵活性,大家都愿意贡献代码。加入标准库会限制其发展,或者说会被搞死。为什么 requests 不是 python 标准库?之前还严肃地征求过这个意见,感兴趣的可以看看。2、标准库里已经有功能类似的。requests开发者。
2025-04-23 18:20:23
181
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人