用大模型搭建一个自己的新闻小助手

最新推荐文章于 2025-04-16 20:30:00 发布

AGI大模型学习

最新推荐文章于 2025-04-16 20:30:00 发布

阅读量1.3k

点赞数 23

文章标签：人工智能 AI大模型机器学习大模型

本文链接：https://blog.csdn.net/2401_84495872/article/details/140827028

版权

背景

信息快速增长的时代，及时获取到有价值的资讯是一件很必要的事情。已经有各类新闻app和获取信息的渠道了，为什么还需要在构建一个小助手来获取新闻资讯呢？其实原因很简单各类新闻app服务的是具体一类人群，个人和人群还是有偏差的。如果可以根据自己的需要简单的定制自己的新闻出版获取器不是一件很有意思的事吗。那么这个简单有简单到什么程度呢？为什么这么问呢，因为简单必然是要付出精度代价的。但是大模型的出现很多复杂的是变得更简单了，原因就是模型把做事流程做了抽象挖掘到更多更本质的或者更上层元策略。所以理论讲你可以既简单但又获得更多有价值的信息。一下假设我们希望我们的新闻小助手具备几种能力（能力可分层，这一阶段有可能部分能力达不到要求）。 1.新闻获取能力：可以根据用户需要搜索到新闻，并对新闻资讯做简单整理 2.新闻摘要、解读、分类 3.可以得到的这么多类新闻做汇总可视化（比如用xmind方式成纲领） 4.可以把内容读取出来：新闻摘要、用户喜欢的新闻成篇读出 5.可以对新闻做深度解析，基于原文+关键词检索对信息作更全面的分析结构化解读（这一步到后面文章介绍） 这篇文章选择用字节开放的“扣子”编排工具来实现，DIfy、autoagent、chatglm、langflow理论上讲都可以实现。但是扣子目前提供的工具插件、以及工作流我觉得是比较容易上手的。并且很多插件是免费使用、把各种API使用需要的权限申请和配置问题解决了。所以这次实践选择用“扣子”来实现。

实现

1.创建Bot

进入扣子页面，点击“创建Bot”，给应用起好名字、做好描述，点击下一步就可以

2.Bot工作流构建

A.设定好人设与逻辑编排，这部主要是安排好助手指责、做事流程（比如我这边就是给了他两个角色：“提供新闻”、“新闻可视化”），具体要求可以参考下面图（或者可以大概让ai优化格式化指令） b.设定流程调度的大模型，目前扣子只提供了三个选项：豆包、千问-max、minmax6.5但是长度是限制咋4k（感觉是不够用的，选择的模型效果不算事最好的），这边我是选择了Minmax6.5s 4k，豆包感觉对流程指令遵循能力不算好，千问-max给的指令长度不太够（其实千问系列有更长指令的） c.构建两个分支工作流：新闻检索、新闻可视化

3.新闻检索工作流

这部分包括4道工序： 1.获取当前时间，根据用户需要查资讯时间推导出资讯查询周期 2.对用户的查询query分析生成适合新闻检索的query 3.用插件：“头条新闻”、“搜狐新闻”来实现新闻检索（这边你也可以用bing、百度搜索、谷歌duckduckgo、秘塔…其他插件实现，我选择的两个插件不一定是最好的） 4.对检索到的新闻用大模型做简单加工格式化，抽标题、url、摘要、解读（浅）根据用户输入生成检索query的prompt设置：

任务：生成包含用户输入的时间和问题的检索词。

1. 解析输入的时间格式（YYYY-MM-DD HH:MM:SS），例如 "2024-05-28 06:57:21"。
2. 根据输入时间推算出目标时间段，例如推算出一周内的时间段为 "2024-05-21至2024-05-28"。
3. 组合用户的query和推算出的时间段生成检索词。


示例：
输入时间："2024-05-28 06:57:21"
用户输入的query："最新的科技新闻"

任务步骤：
1. 解析输入时间→"2024-05-28 06:57:21"
2. 推算1周时间段→"2024-05-21至2024-05-28"
3. 生成检索词→"2024-05-21至2024-05-28 最新的科技新闻"

请根据以上步骤生成检索提示词：
检索词："[推算出的时间段] 用户输入的query"
用户输入：当前日期是{{current}},用户输入的时间{{day}}；用户输入的query是{{query}}
只输出[推算出的时间段] 用户输入的query

新闻简单加工和格式化prompt设置：

请从下面的用户输入中提取并格式化每条新闻的名称、url，并判断新闻属于什么类。要求如下：
1. 将每条新闻单独列出，名称、url和类别分别输出。
2. 新闻名称：直接摘录内容，不需要做任何改动。
3. url：从提供的链接中提取，不需要修改。
4. 类别判断：根据新闻简介内容，判断其主要涉及的关键词。例如，如果新闻涉及健康、医学研究，判断其为“健康”。如果涉及宇宙、天文，判断其为“天文”。
5.输出的新闻标题，基于summary提取，不要用输入的"title"
6.并对每条新闻作出解读
7. 根据输入格式化并分类新闻条目，最终结果以 JSON 格式输出。
示例输入:

4.新闻可视化工作流

包括两道工序： a.把检索回来已经简单加工的新闻资讯做进一步的加工，适配treemind呈现格式 b.把大模型进一步加工好的数据输入给插件“TreeMind”来做可视化大模型加工这边选择是Minmax6.5s（256k），指令如下：

Generate a mind map in xmind format from the following data. The mind map should be organized with top-level nodes as categories and under each category, include the articles as sub-nodes with their titles and URLs:

Data:
[
  {"category":"健康","title":"脑损伤揭示慷慨路径","url":"http://m.toutiao.com/group/7373817664730300978/"},
  {"category":"健康","title":"微塑料入侵","url":"http://m.toutiao.com/group/7373817664730300978/"},
  {"category":"天文","title":"哈勃探索宇宙奇观","url":"http://m.toutiao.com/group/7373817664730300978/"},
  {"category":"健康","title":"新型冠状病毒可能引发下一次大流行","url":"http://m.toutiao.com/group/7373817664730300978/"},
  {"category":"天文","title":"NASA的欧罗巴探测器准备发射","url":"http://m.toutiao.com/group/7373817664730300978/"},
  {"category":"科学技术","title":"纳米级3D映射揭示大脑结构革命性见解","url":"http://m.toutiao.com/group/7373817664730300978/"},
  {"category":"科学技术","title":"量子计算进展","url":"http://m.toutiao.com/group/7373817664730300978/"},
  {"category":"环境","title":"绿色科技","url":"http://m.toutiao.com/group/7373817664730300978/"},
  {"category":"技术","title":"平台工程","url":"http://m.toutiao.com/group/7373817664730300978/"}
]

The mind map should look like this:

- 健康
- Title: 脑损伤揭示慷慨路径
URL: http://m.toutiao.com/group/7373817664730300978/
- Title: 微塑料入侵
URL: http://m.toutiao.com/group/7373817664730300978/
- Title: 新型冠状病毒可能引发下一次大流行
URL: http://m.toutiao.com/group/7373817664730300978/
- 天文
- Title: 哈勃探索宇宙奇观
URL: http://m.toutiao.com/group/7373817664730300978/
- Title: NASA的欧罗巴探测器准备发射
URL: http://m.toutiao.com/group/7373817664730300978/
- 科学技术
- Title: 纳米级3D映射揭示大脑结构革命性见解
URL: http://m.toutiao.com/group/7373817664730300978/
- Title: 量子计算进展
URL: http://m.toutiao.com/group/7373817664730300978/
- 环境
- Title: 绿色科技
URL: http://m.toutiao.com/group/7373817664730300978/
- 技术
- Title: 平台工程
URL: http://m.toutiao.com/group/7373817664730300978/

用户输入:{{input}}

TreeMind对信息可视化结果如下：或者如下：最终模型执行结果如下，可以让机器给你读新闻，可以实现xmind可视化、可以设定每天定时给你推送加工好的新闻。后面如果要做深度解读可以再加一条链路。根据你自己需要按上面格式输入你想看的周期类别的新闻。可以点选朗读，让机器给你读新闻，如果你不想自己点也可以设定自动读。输入“新闻可视化”实现新闻的xmind格式呈现。

如何学习AI大模型？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获：👈
• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求：大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能，学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力：大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式：
😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述