自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1277)
  • 收藏
  • 关注

原创 GitHub上这个新式爬虫智能体真的好用

但我最近发现不少爬虫工具也CLI 智能体化了,我这几天用了Bright Data新出的爬虫CLI,几乎把Python爬虫能干的活都给干了,而且还能自动处理网页反爬限制,比如验证码、浏览器指纹、JS动态渲染、IP监测等。我看了它们的Github readme,这个CLI不光可以一键采集任意网页,还能实现谷歌关键词搜索、AI智能查找排序,能提取40多个全球主流电商、社媒网站的结构化数据,比如亚马逊的商品信息、领英的职位信息等。然后你就可以去采集各种数据,操作非常简单。出现采集logo,即代表安装好了。

2026-06-15 15:15:24 271

原创 聊聊目前Agent两大瓶颈,为什么同质化会比较严重?

举个很简单的例子,你让Agent去修复某张数仓表的bug,告诉它这张表的结构、用途,Agent确实把问题解决了,能run起来,但是另一张下下下游表却出bug,因为某字段字段属性/逻辑被更改,导致无法关联。Agent只会在有限的框框里去完成任务,它不知道一件事的前因后果,背景细节,开发一个货物瑕疵检测小工具容易,但是搭建物流系统就很难,因为涉及很多的流程、规范、变数。意思是说,Agent执行非代码任务,没有办法自己纠错,因为没有评判标准,遇到问题不会自动停任务,只会反复重试,不断循环,这样会拉爆token。

2026-06-15 13:19:17 166

原创 说说我找Agent SKILL的几个小技巧

首先看看官方skill,你可以去github上找anthropics/skills、openclaw/skills/、openai/skills等,这些都是官方仓库提供的skill,安全、好用,有专业工程师在维护。说这么多,最好用的skill一定是agent原生适配的,其次是github上开源的热门skill,但用的时候需要二次优化,也就是基于你的大模型和Agent改造。只要你在Claude中使用skill,就必须依照它的规范,那么官方skill生成的skill就能完美适应,几乎不需要做二次优化。

2026-06-13 08:11:13 172

原创 Bokeh,可能是最好用Python交互式可视化包~

Bokeh相比其他可视化库的另一个优势是它能很好的处理实时数据流,可以及时的展示数据的变化,比如电商数据沙盘、企业经营大屏、股票实时走势等,可以集成到web应用中,而且能结合Python的数据处理库进行实时的数据清洗、建模,并展示数据,非常的好用。作为交互能力出众的可视化库,Bokeh提供了很多交互组件,比如平移、缩放、悬停、选择等,支持各种控件,比如按钮、滑块、下拉菜单、复选框等,通过Bokeh服务器来启用Python回调和实时更新的Web应用程序框架。只需要简单的几行代码,就可以绘制出一个折线图。

2026-06-11 19:46:21 244

原创 学会这8个Python爬虫工具,五分钟搞定数据采集

Python本身是编程语言,其拥有众多的第三方爬虫工具,可以支持从数据请求、解析、存储、清洗、建模等全部操作,而且搭建工作流更方便,从数据采集到直接数据应用,比如大模型的实时数据训练,采集最新鲜的网页信息用于模型更新。以我使用Python爬虫的经验来看,有8个工具最值得学习,其中有第三方库/包,也有爬虫代理服务工具等,每个工具作用不一样,但配合起来可以处理任何爬虫场景。比方说,scrapy有下载器、调度器、管道,都是独立的模块,可以进行灵活的爬虫任务,而且它支持异步执行,能同时处理多个请求任务,效率奇高。

2026-06-11 19:45:50 642

原创 九章云极给员工发千亿 Token,是算力过剩的凡尔赛,还是 AI 企业人才争夺战的新玩法?

回到这件事上,九章云极本身就是token生产商,它的“产品”就是算力,给员工发token并不奇怪,本身就是对自家 Coding Plan、Token工厂等产品的内测和体验,甚至是反哺产品。翻翻Github就知道了,如今的热门开源仓库,大部分都是AI主导开发的,比如codegraph,将近4万star,是专门为各大AI代码智能体预构建的代码知识图谱,其主体代码全程AI开发。有的人说这太绝对了,其实一点不夸张,token是AI大模型最小算力计价单位,通俗点说就是它的口粮,你喂多少,它就干多少的活。

2026-06-11 19:44:34 208

原创 普通人要 OpenClaw 有什么用?

刚好有个朋友是做跨境3D打印业务,平时需要分析相关3D打印商品价格趋势,我帮他写个可以用于采集跨境电商商品的skill,部署在openclaw里,能通过钉钉对话输入商品关键词,自动采集对应的商品信息,完全不需要再写任何代码。做好准备工作后,开始创建用于采集amazon商品的skill,在Trae中新建文件夹,放入之前亮数据中复制的代码,采集脚本为scraper.py,下载脚本为dowload.py。这次skill是根据关键词来搜索商品,所以选择对应的api,复制保存该python采集代码,后续会用到。

2026-06-09 23:45:40 283

原创 HTML会代替Markdown吗?为什么?

满足这两个条件的只有Markdown,作为轻量级的标记语言,语法上已经尽可能让所有人都能看懂、会用,比如标题用 #,##,###,代表一级、二级、三级标题,这其实稍微熟悉下就会用。大模型也能熟悉这种标记语言,因为有严格的规范,而不是像word那样的富文本,各种排版、格式,没有统一章法,AI很难读出来,需要花大量的token去清洗。HTML因为是结构标准化的文档,虽然也很适合AI读取,但对于AI来说还是不如Markdown好吸收,因为HTML嵌套太多了,什么CSS、JS、简胜于繁,人如此,AI也是一样。

2026-06-09 23:44:27 200

原创 为什么现在大多 Code Agent 的主形态是 CLI/TUI?

我看了它们的Github readme,这个CLI不光可以一键采集任意网页,还能实现谷歌关键词搜索、AI智能查找排序,能提取40多个全球主流电商、社媒网站的结构化数据,比如亚马逊的商品信息、领英的职位信息等。Bright Data CLI最大的好处在于解决了爬虫最难的门槛,那就是反爬限制,你不需要再配置IP池,也不需要去找打码平台,就能采集到各大主流网站的字段数据。到这里你就能看到Bright data CLI的强大之处了,相当于省去几百上千行代码的工作量,直接通过命令行代码就能采集到复杂的数据。

2026-06-09 23:43:56 538

原创 Agent目前最大的瓶颈是什么?

举个很简单的例子,你让Agent去修复某张数仓表的bug,告诉它这张表的结构、用途,Agent确实把问题解决了,能run起来,但是另一张下下下游表却出bug,因为某字段字段属性/逻辑被更改,导致无法关联。更便宜,Uber就是个典型的例子,5000名工程师人均token账单500-2000美元,四个月用完了全年的AI预算,算一算帐,上千万美金的AI费用,可以养活多少工程师。因为信息到处分散,数据库、云文档、本地文件等,Agent为了查全信息会塞进超长的上下文,每次请求都会浪费很多token。

2026-06-09 23:43:24 236

原创 面向token编程,一夜百万账单,还能抗的住吗?

举个很简单的例子,你让Agent去修复某张数仓表的bug,告诉它这张表的结构、用途,Agent确实把问题解决了,能run起来,但是另一张下下下游表却出bug,因为某字段字段属性/逻辑被更改,导致无法关联。Agent只会在有限的框框里去完成任务,它不知道一件事的前因后果,背景细节,开发一个货物瑕疵检测小工具容易,但是搭建物流系统就很难,因为涉及很多的流程、规范、变数。意思是说,Agent执行非代码任务,没有办法自己纠错,因为没有评判标准,遇到问题不会自动停任务,只会反复重试,不断循环,这样会拉爆token。

2026-06-04 23:45:51 198

原创 MiniMax M3真的量大管饱?实测review pandas代码库

总的来说,MiniMax M3是想要在Agent中杀出重围,找到自己的一块领地,但可能并不容易,Opus4.7、GPT5.5两座大山在前,而且有Claude Code和Codex这样的顶级框架,但是这一次M3确实已经在试探着去接近,我觉得是好事。6月第一周,MiniMax M3出来了,依旧的量大管饱,Token Plan定价的讨论声不少,我连夜测试用M3去review pandas代码仓库,这是小时级别的任务,效果有点出乎意料。为什么说之前一百万上下文只是挂在天上的参数,用着不爽呢?

2026-06-04 22:05:45 265

原创 如何看待 Minimax 新的 M3 多模态模型以及更新的 Token Plan?

总的来说,MiniMax M3这次下了蛮大的决心,想要在Agent中杀出重围,找到自己的一块领地,但可能并不容易,Opus4.7、GPT5.5两座大山在前,而且有Claude Code和Codex这样的顶级框架,但是这一次M3确实已经在试探着去接近,我觉得是好事。这个任务看起来复杂,其实一点也不简单。除了MSA,另一点值得讲的是M3的Agent能力,它在底层做了优化设计,比如说他们构建了一个“交互式用户模拟器”框架,相当于虚拟一个技术大佬,进行陪伴式开发,可以进行多轮协作、改需求、给反馈,

2026-06-02 14:35:11 247

原创 使用Bright Data CLI进行网页爬虫,零代码~

我看了它们的Github readme,这个CLI不光可以一键采集任意网页,还能实现谷歌关键词搜索、AI智能查找排序,能提取40多个全球主流电商、社媒网站的结构化数据,比如亚马逊的商品信息、领英的职位信息等。Bright Data CLI最大的好处在于解决了爬虫最难的门槛,那就是反爬限制,你不需要再配置IP池,也不需要去找打码平台,就能采集到各大主流网站的字段数据。到这里你就能看到Bright data CLI的强大之处了,相当于省去几百上千行代码的工作量,直接通过命令行代码就能采集到复杂的数据。

2026-06-02 14:33:32 853

原创 只把 20 世纪前的物理数学知识喂给 AI,AI 能推导出狭义或广义相对论吗?

第二是更重要的,AI缺少公理基础,因为勾股定理是在平直欧氏空间(公理)才成立的,是欧氏几何的衍生品,如果在弯曲空间里,勾股定理是不成立的。有两个原因,第一是前面讲的,AI不会主动提出假设,它不会在某个闲的发慌的下午,对着一个三角形,去提出一百种假设分析它三个角的几何关系。你让AI去识别这个物种,同时告诉AI这个新物种的解剖、形态结构、演化特征,AI会基于算法和知识库,找一个相似度最高的,说是某某某。而发现狭义相对论的要求是,没有1,或者1是错误的,你得在假设的基础上先得到正确的1,再得到2、3、4。

2026-05-31 22:24:38 169

原创 CLI一键采集,使用Python搭建TikTok电商爬虫Agent

我花了半天时间,用Python开发了一个CLI爬虫智能体,可以实现自动化采集Tiktok上公开的商品数据信息,可以通过商品url、店铺url、关键词等进行采集,一行命令直接拿到结果表。用亮数据的好处在于它的接口配置了一整套网页解锁、IP代理服务,能处理各种爬虫限制,包括动态加载、人机验证、浏览器指纹等,非常适合作为智能体的数据采集接口,它还有MCP服务,相当的好用。示例里提供了Python requests的采集代码,这是我们要用到的,只需按照它的规范就可以成功部署到智能体中,其他爬虫接口也都有示例代码。

2026-05-31 22:24:06 210

原创 Image 2.0,这效果有点炸裂

Sam Altman在Images 2.0的发布视频特意强调说,Images 2.0是图像生成的文艺复兴,智能化程度直接从gpt3跨越到gpt5,具备了生产级的效果。有意思的是,这次发布会除了奥特曼之外,核心开发团队的四个人都是华人,我查了基本是在国内求学,从清北出去的CS背景,不得不感慨华人在AI技术领域强到可怕。之前的Nano banana也让我惊喜,特别是生成手办的真实度,但Images 2.0又向前走了一大截,突破了绘图AI的瓶颈,主要是以下三个点。效果出乎意料的好,是那种一键出片、无需修饰的好。

2026-05-31 22:22:16 284

原创 HTML会代替Markdown吗?为什么?

满足这两个条件的只有Markdown,作为轻量级的标记语言,语法上已经尽可能让所有人都能看懂、会用,比如标题用 #,##,###,代表一级、二级、三级标题,这其实稍微熟悉下就会用。大模型也能熟悉这种标记语言,因为有严格的规范,而不是像word那样的富文本,各种排版、格式,没有统一章法,AI很难读出来,需要花大量的token去清洗。HTML因为是结构标准化的文档,虽然也很适合AI读取,但对于AI来说还是不如Markdown好吸收,因为HTML嵌套太多了,什么CSS、JS、简胜于繁,人如此,AI也是一样。

2026-05-31 22:21:46 239

原创 对你而言, Vibe Coding 的乐趣是什么?

Vibe coding和钓鱼都属于是个人就会做的事情,没有学习的痛苦,反而会随着技艺的提升,越玩越上头,一开始你的prompt只能生成美图秀秀,精进之后得到PhotoShop。写到这里,我自己对这个比喻深信不疑,Vibe coding会成为一部分群体的精神钓鱼,甘之如饴,乐此不疲。agent是编程的工具,就像挑鱼竿一样,选好的准没错,比如claude code、codex、AI跑出的结果功能正常、交互流畅、UI美观,就像鱼儿上钩,都是获得奖励,刺激。代码结果不理想,就调整prompt,钓不到鱼就换个饵料。

2026-05-31 22:20:44 225

原创 这6个动作让python selenium爬虫规避检测

如果是技术小白,不会写上面提到的那些规避措施代码,就可以尝试用亮数据的这样的采集api,它把各种规避检测的技术、IP代理池都封装到一个接口里,还提供专门的云上浏览器,用selenium接入,和普通浏览器一样,有头无头都支持,但不需要再写各种反爬措施之类的脚本,比较简单直接。因为很多网站会直接识别headless模式,也就是无头模式,只有selenium这样的自动化工具才会这么干,真人只会在浏览器界面访问,所以用selenium时要打开真实浏览器界面,这样不容易被检测。

2026-05-29 23:45:12 188

原创 在Trae上使用Bright Data MCP采集数据,获取谷歌搜索结果

其实网页爬虫也一样,爬虫说到底就是收集数据,和你平时浏览网页没区别,只不过是用脚本批量化的去采集数据,AI大模型的出现让爬虫也开始进化,传统的Python爬虫、软件爬虫在慢慢被AI爬虫取代,比如说我常用的一个数据采集MCP-Bright Data MCP,能通过Trae这样的Agent调用,直接用自然语言就可以采集目标网站的数据,完全不用写代码,甚至你都不用打开目标网站。Trae是近一年比较流行的AI编辑器,字节开发的产品,类似于VsCode,但Trae有更强的AI编程能力,比如搭建智能体、布置MCP等。

2026-05-29 23:44:41 213

原创 非常强大!这个CLI爬虫工具能一键接入Codex

我看了它们的Github readme,这个CLI不光可以一键采集任意网页,还能实现谷歌关键词搜索、AI智能查找排序,能提取40多个全球主流电商、社媒网站的结构化数据,比如亚马逊的商品信息、领英的职位信息等。Bright Data CLI最大的好处在于解决了爬虫最难的门槛,那就是反爬限制,你不需要再配置IP池,也不需要去找打码平台,就能采集到各大主流网站的字段数据。到这里你就能看到Bright data CLI的强大之处了,相当于省去几百上千行代码的工作量,直接通过命令行代码就能采集到复杂的数据。

2026-05-28 10:56:39 1109

原创 tkinter可以做出多复杂的界面?

因为tkinter就像是一个随拿随用的小工具箱,你用它做个小板凳、小椅子是可以的,但不能指望它造汽车,而PyQt、wxPython则像一个大型制造车间,工具齐全、流程完善,汽车飞机大炮都可以造。最重要的一点是,得确保数据采集的安全性,这些专利数据是公开数据,原则上没问题,但数据采集过程不能干扰到网站的正常运行,还得符合不同国家的合规性要求。tkinter本身就是个轻量化的GUI开发工具,不适合做复杂的交互界面,那些炫技的其实很多是花架子,不实用,真要开发复杂美观的交互界面,可以去用。

2026-05-27 23:21:32 416

原创 大家都在电脑上安装了openclaw了吗?

这两天在摸索openclaw用法,它的能力都是基于skill来实现的,skill是agent的可执行能力单元,就像一个个干活机器人,LLM会将你的对话指令匹配到合适的skill,然后开始干活。3、安装github上的现成skill,如果看上了某个开源skill,想要安装到openclaw中,直接把这个仓库链接扔给openclaw,让它配置就可以,非常非常的方便。,2核2G运行内存,完全够用了,主要OpenClaw权限太大,用云服务器不会影响到本地文件的安全,玩起来没啥负担。

2026-05-27 23:21:02 192

原创 如何评价GPT-Image-2,有哪些亮点值得关注?

这两天朋友圈也被ChatGPT Images 2.0生成的图片刷屏了,有点像前不久seedance 2.0发布时的盛况,有的人大呼不再需要平面设计师、不再需要PS软件了,声音有点耳熟。有意思的是,这次发布会除了奥特曼之外,核心开发团队的四个人都是华人,我查了基本是在国内求学,从清北出去的CS背景,不得不感慨华人在AI技术领域强到可怕。之前的Nano banana也让我惊喜,特别是生成手办的真实度,但Images 2.0又向前走了一大截,突破了绘图AI的瓶颈,主要是以下三个点。

2026-05-26 22:14:56 227

原创 这几个高级爬虫软件和插件真的强!

无论是需要简单的数据抓取,还是复杂的数据挖掘和分析,市场上的爬虫工具都能提供相应的解决方案。同时,使用爬虫软件时,也应遵守相应的法律法规,尊重数据的版权和隐私。亮数据是一款强大的数据采集工具,以其全球代理IP网络和强大数据采集技术而闻名。它能够轻松采集各种网页数据,包括产品信息、价格、评论和社交媒体数据等。HTTrack是一款免费且功能强大的网站爬虫软件,它允许用户下载整个网站到本地计算机。八爪鱼是一款面向非技术用户的桌面端爬虫软件,以其可视化操作和强大的模板库而受到青睐。管理和导出搜集到的信息。

2026-05-26 22:14:01 1285

原创 这三个爬虫工具,适合编程小白采集数据

网络爬虫是一种常见的数据采集技术,你可以从网页、 APP上抓取任何想要的公开数据,当然需要在合法前提下。爬虫使用场景也很多,比如:搜索引擎机器人爬行网站,分析其内容,然后对其进行排名,比如百度、谷歌价格比较网站,部署机器人自动获取联盟卖家网站上的价格和产品描述,比如什么值得买市场研究公司,使用爬虫从论坛和社交媒体(例如,进行情感分析)提取数据。与屏幕抓取不同,屏幕抓取只复制屏幕上显示的像素,网络爬虫提取的是底层的HTML代码,以及存储在数据库中的数据。

2026-05-26 22:13:23 1071

原创 8个必备的数据采集工具详解,低代码爬虫~

它提供了自动网站解锁功能,能够应对动态加载、验证码、IP限制等各种反爬虫机制,而且支持如Puppeteer、Playwright和Selenium等多种爬虫工具,在亮数据内置的无界面浏览器上进行数据的采集,成功率非常高。不管是文本、图片、视频亦或表格,八爪鱼都能抓,而且它还提供了非常丰富的采集模板,比如电商、新闻、短视频等主流平台全包含,它已经帮你配置好了流程,一键可以实现爬虫。它的优势是基于Python生态,灵活性高,支持分布式爬虫和异步请求,而且有多种扩展,能满足复杂采集需求,适合做企业级爬虫部署。

2026-05-23 23:52:54 1001

原创 selenium采集数据怎么应对反爬机制?

亮数据还有网页解锁功能,即Web Unlocker ,相当于把负责反爬处理机制放到一个接口里,你只需向Web Unlocker发送目标 URL,所有复杂的解锁过程(包括处理反机器人措施、执行 JavaScript、管理 cookie 和会话、轮换 IP 地址)都在后台自动完成,你会收到目标URL的完整 HTML或JSON响应。对于爬虫而言,最难的不是解析网页,而且应对反爬机制,比如动态网页、IP封禁、人机验证等等,这是爬虫工具没法自行解决的。如何使用Selenium抓取网页呢?可以看以下的代码示例。

2026-05-23 23:52:21 574

原创 数据可视化利器,Altair画图原来这么好看

Altair不同于Matplotlib,它绘制图表代码更加简单直接,因为Altair是“申明式”语法,你只要提做什么就可以,Altair会自动渲染细节,不需要像matplotlib那样,要指定每个元素的步骤细节。比如说Altair绘制散点图,只需要在一个函数里告诉它x、y字段用什么数据,图表标题、大小是什么就可以,而Matplotlib则需要手工去创建画布、标题、尺寸,每个元素都需要去设计,更加麻烦。1、交互性能好,Altair是原生支持图表交互,可以随意与图表进行交互,实现酷炫的展示。

2026-05-23 23:51:47 241

原创 为什么这么多人质疑SQLite数据库?

比如在Trae里,SQLite MCP,能直接从集市里添加,然后在配置信息里输入前面的my_db.db数据库路径地址,保存即可。你也可以在Python对SQLite数据库进行操作,会用到SQLite库,这是Python标准库,不需要额外安装。说回来,SQLite是一个轻量化的开源数据库,它没有服务器,无需复杂的配置安装,就可以直接用,非常适合单机场景。所以说SQLite的应用场景非常广,绝对是良心数据库,体积小、安装快、无需配置,简直就是数据库中的小钢炮。最近看到有个问题:SQLite用的人多吗?

2026-05-23 23:51:16 246

原创 HTML会代替Markdown吗?为什么?

满足这两个条件的只有Markdown,作为轻量级的标记语言,语法上已经尽可能让所有人都能看懂、会用,比如标题用 #,##,###,代表一级、二级、三级标题,这其实稍微熟悉下就会用。大模型也能熟悉这种标记语言,因为有严格的规范,而不是像word那样的富文本,各种排版、格式,没有统一章法,AI很难读出来,需要花大量的token去清洗。HTML因为是结构标准化的文档,虽然也很适合AI读取,但对于AI来说还是不如Markdown好吸收,因为HTML嵌套太多了,什么CSS、JS、简胜于繁,人如此,AI也是一样。

2026-05-20 23:16:00 153

原创 现在怎么去学习AI,在哪里去学习?

和arena ai不同的是,product hunt侧重于APP、网站等AI产品,而非模型本身,而且它是基于用户互动数据来打分排名的,不是看能力高低,所以product hunt更像是AI领域的豆瓣。最后,AI每天都在迭代,但最重要的还是用起来,AI to Everything,想尽一切办法让AI解决生活工作中的问题,不管你认不认可,这是不可逃避的趋势。这是最大的AI开源社区,有最全的模型、数据、算法、Agent,各种技术报告,你可以泡在里面,学习前沿技术,动手调试模型、Agent。

2026-05-20 23:15:14 439

原创 对你而言, Vibe Coding 的乐趣是什么?

Vibe coding和钓鱼都属于是个人就会做的事情,没有学习的痛苦,反而会随着技艺的提升,越玩越上头,一开始你的prompt只能生成美图秀秀,精进之后得到PhotoShop。写到这里,我自己对这个比喻深信不疑,Vibe coding会成为一部分群体的精神钓鱼,甘之如饴,乐此不疲。agent是编程的工具,就像挑鱼竿一样,选好的准没错,比如claude code、codex、AI跑出的结果功能正常、交互流畅、UI美观,就像鱼儿上钩,都是获得奖励,刺激。代码结果不理想,就调整prompt,钓不到鱼就换个饵料。

2026-05-20 23:14:38 100

原创 使用skill开发amazon商品采集功能

刚好有个朋友是做跨境3D打印业务,平时需要分析相关3D打印商品价格趋势,我帮他写个可以用于采集跨境电商商品的skill,部署在openclaw里,能通过钉钉对话输入商品关键词,自动采集对应的商品信息,完全不需要再写任何代码。创建这个skill还需要两个工具,一个是trae或者vscode编辑器,另一个是Anthropic发布的用于创建skill的skill,名字叫作skill-creator,你可以在github中找到它。这样ai会自动调用skill-creator技能,来创建新的skill。

2026-05-18 16:43:42 1246

原创 使用Python开发了CLI爬虫智能体

我花了半天时间,用Python开发了一个CLI爬虫智能体,可以实现自动化采集Tiktok上公开的商品数据信息,可以通过商品url、店铺url、关键词等进行采集,一行命令直接拿到结果表。用亮数据的好处在于它的接口配置了一整套网页解锁、IP代理服务,能处理各种爬虫限制,包括动态加载、人机验证、浏览器指纹等,非常适合作为智能体的数据采集接口,它还有MCP服务,相当的好用。示例里提供了Python requests的采集代码,这是我们要用到的,只需按照它的规范就可以成功部署到智能体中,其他爬虫接口也都有示例代码。

2026-05-18 16:40:46 1537

原创 如何基于Python对excel大量数据进行处理?

另外一个可以大规模写入数据,不占用内存的是库是XlsxWriter,它有个“常量内存”模式,支持每写入一行,就在内存中清除上一行占用的空间,意味着内存只存有一行数据,永远是够用的。读取Excel能用pandas尽量用pandas,但如果Excel文件非常大,已经远大于内存容量了,或者你相对Excel有更多其他处理,比如修改格式等,则可以用OpenPyXL。读取就可以,pandas有专门的分块读取模式,比如说每次只读取1万行用于处理,这样就不会太占用内存。除了以上几个库,还有像。

2026-05-17 20:23:09 81

原创 假如一个工厂的生产完全自动化,没有任何一个工人,那它的剩余价值怎么产生?其间是否还存在剥削?

其背后都需要人来支撑,而且需要更高阶的人才,剩余价值也可能更高。就是说你的无人工厂可能剥夺的是某个乙方运维人员、发电厂维修人员、物流司机的剩余价值。

2026-05-17 20:22:38 201

原创 通过 MCP 实现 AI Agent 目前有哪些最佳实践?

首先要介绍下什么是MCP,它的学名是“模型上下文协议”,你可以理解成它是连接AI大模型和外部工具的一个媒介,类似于电脑和互联网的关系,大模型原先只是封闭的大脑,有了MCP后它就连接了无数的信息、工具、数据,可以做更多的事情,比如Bright Data MCP能实现复杂网站的数据采集。总的来说,AI爬虫已经成为不可逆的趋势,完全不需要写代码处理网页,几乎零门槛,而且能很好的和一些智能体结合,做出不错的产品,比如手机的价格监测应用,运营的好也能带来不错的效果。

2026-05-17 20:21:57 382

原创 数据分析为什么常用Jupyter而不是直接使用Python脚本或Excel?

Jupyter主要是用来做数据科学,其包含数据分析、数据可视化、机器学习、深度学习、机器人等等,任何Python数据科学第三方库都能在Jupyter上得到很好的应用和支持。其实它是集编程、笔记、数据分析、机器学习、可视化、教学演示、交互协作等于一体的超级web应用,而且支持python、R、Julia、Scala等超40种语言。在产品上,Jupyter不仅有简洁的Notebook ,还有工作台式的Lab,甚至线上平台化部署的Hub,对个人、团队、企业都可以完美支持。6、课堂编程相关的内容展示、实验。

2026-05-17 20:21:26 195

100个Github Python项目

整理了100个在Github上热门的Python项目,包含数据科学、web应用、游戏、可视化、机器学习、自动化等等

2024-04-22

16个matplotlib绘图技巧

包含了Python Matplotlib库可视化绘图的各种技巧,如标题、文本、注释、坐标轴、图例、颜色等等

2024-04-22

60个Numpy函数和方法解析

Python第三方库Numpy的函数和方法解析

2024-04-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除