🤔
你有没有想过,类似ChatGPT这样的AI系统
是如何学习生成文本、翻译语言或创建新图像的?
https://jiangren.com.au/blog 也许你有不同的想法,可以来告诉我们!
答案在于一种并不那么秘密的武器:
网络抓取(Web Scraping)
▪️什么是网页抓取?
想象一下,从网站中获取信息就像一把数字汤匙。网页抓取可自动执行此过程,提取特定数据(电子商务网站的产品详细信息、新闻文章或社交媒体帖子)并将其组织成可用的格式。
▪️为什么要进行网页抓取?
互联网是信息的宝库,但信息并不是有序的。
网页抓取使我们能够:
1️⃣收集大型数据集
生成式AI模型依靠海量数据蓬勃发展,
抓取数据为人工智能学习和发展其能力提供了原始材料
2️⃣提取具体数据
比如需要来自不同零售商的产品价格时,
网页抓取可以有效定位这些数据。
3️⃣跟踪趋势和变化
通过随时间抓取相关数据来监控在线对话或市场波动。
▪️网页抓取和生成式AI:数字世界中的完美结合
生成式AI像一位才华横溢艺术家,需要灵感。
正是网页抓取提供了大量的信息来激发其创造力:
*生成模型的训练数据
*了解网站结构
*增强搜索查询
基于文本的生成式 AI 模型通过从文章、书籍和代码中抓取的大量文本进行训练。这些数据让模型了解语言的细微差别,并使其能够生成人类水平的文本;生成式AI可用于分析抓取的数据并了解网站的构建方式,然后可以利用这些知识创建新的、逼真的网站;还可以分析抓取的数据以生成更有效的搜索查询,帮助找到训练生成模型所需的具体信息。
▪️网络抓取和生成式AI的未来
随着这两项技术的发展,我们可以期待更强大的应用:
AI抓取工具+更复杂的生成模型
🤔再想象一下,AI可以根据想要的数据自动编写抓取脚本凭借更丰富、更多样化的数据集,生成式AI将能够创造出更令人印象深刻、更逼真的输出......