由国内知名企业开源人工智能项目想到的

由国内知名企业开源人工智能(AI)项目想到的

一、国内大中型公司知名开源AI项目(我所知道的,中小公司100多star就计算了)

公司知名项目个数AI相关账户知名项目
Baidu21Baidu、ApolloAuto、PaddlePaddleAI框架(Paddle/Lite/Serving)、自动驾驶Apollo、Paddle应用系列(OCR/NLP/Detection/Speech/Seg/Clas/Rec/Video/GAN/Hub)、NLP系列(ERNIE/LAC/AnyQ/Senta/DDParser/PLATO)、强化学习(PARL)
Huawei15Huawei、huawei-noah、mindspore-aiAI框架(mindspore/serving)、mind系列(armour/quantum/science/Hub)、CV领域(GhostNet/Efficient-AI-Backbones/vision)、NLP领域(Nezha/TinyBERT/PanGu-α/Noah_WuKong/DynaBERT/PMLM)、图神经网络(graphengine)、强化学习RL(SMARTS)
Tencent13Tencent、tencent-ailabAI框架(ncnn推理/TNN轻量推理/TurboTransformers推理)、CV领域(FeatherCNN/MedicalNet/ObjectDetection-OneStageDet/FaceDetection-DSFD/tencent-ml-images)、NLP领域(Tencent-WordEmbedding/NeuralNLP-NeuralClassifier/TexSmart)、音频领域(bddm)、强化学习RL(PhoenixGo)
Alibaba7Alibaba、Alibaba-NLP、AlipayAI框架(MNN推理)、EASY系列-最近(CV/NLP/REC/RL)、AliceMind(StructBERT、LatticeBERT)
JD5JDAI、JDAI-CVAI框架(dabnn推理)、CV领域(fast-reid/FaceX-Zoo)、nlp_baai(JDAI-BERT/JDAI-Word-Embedding)
XiaoMi3XiaomiAI框架(mace轻量推理)、MiNLP、kaldi-onnx
ByteDance2BytedanceAI框架(byteps分布式训练/lightseq序列任务训练)
DiDi2DiDi、Delta-MLAI框架(dlflow分布式训练)、阅读理解delta
Meituan1MeituanCV领域(YOLOv6)
NetEase1netease-youdao、NetEase-GameAIFace2FaceRHO、EMLL
Trip1ctripcorpC-OCR
iFLYTEK1iFlytekJudiciaryNLP领域(Iflytek长文本分类数据集/CAIL2019_CJRC)
3600Qihoo360TensorNet
Kingsoft0kingsoft-wpsKSAI-Lite
PDDNone//
58None//
SinaNone//
SohuNone//
SenseTime14OpenMMLab、Sense-GVT、SenseTime X-Labmm系列(mmcv/mmdetection/mmediting/mmsegmentation/mmocr/mmdetection3d/mmselfsup/mmaction/mmclassification/mmgeneration/mmdeploy)、DeCLIP、X-Temporal、CV领域(Deformable-DETR)
megvii10MegEngine、Megvii-BaseDetection、megvii-modelAI框架(MegEngine)、CV领域(YOLOX/YOLOF/ShuffleNet系列/IOU-loss/BorderDet/DeFCN/LearningToPaint/ML-GCN/BBN/neural-painter)
yitu1YITUTechT2T-ViT
cloudwalk0CloudWalkddbscan
zhuiyi6ZhuiyiTechnologyNLP领域(nl2sql_baseline/simbert/WoBERT/roformer/GlobalPointer)、预训练模型pretrained-models
shannonai4ShannonAINLP领域(ChineseBert/mrc-for-flat-nested-ner/glyce/dice_loss_for_NLP)
chumenwenwen1wenet-e2e音频领域(wenet/speech-synthesis-paper/wekws/opencpop)
aispeech1aispeech-lab音频领域(advr-avss/VisBCI/TinyWASE)
memect1memect知识图谱领域(kg-beijing)
leyantech0leyantech/
datagrandNone//
emotibotNone//
hivoiceNone//
tigeroboNone//

二、感触

或许统计不全面,不过依然可以看出:
1、国内开源尤其是AI开源确实不太活跃,相对于企业,更多的可能是大学和个人。
2、百度的Ai开源项目最多,确实反映了百度AI在国内互联网公司中最强的实力。
3、相较于创业公司,大公司开源动力更强,不过与美国头部互联网公司相比,国内公司的实力确实是不强,有影响力的项目更是少之又少。
4、不过与大众印象中阿里国内最强的开源互联网企业不同,阿里在AI领域的开源并不活跃,在CV、NLP似乎也见不到阿里的经典项目和论文。
5、中小型互联网公司在AI领域的开源动力也不强,开源项目是少之又少。
6、反倒是一些初创企业开源意愿较强,也是宣传和证明自己技术实力的一种方式吧,例如CV领域的AI四小龙中的商汤、旷视,又比如NLP领域的追一科技和香侬科技。

<think>嗯,用户想了解开源的大模型联网检索工具。首先,我需要明确“联网检索工具”具体指的是什么。通常这类工具让大模型能够访问实时或更新的网络信息,克服模型训练数据过时的问题。开源意味着用户可以自由使用和修改,所以需要列举一些知名的开源项目。 首先想到的是LangChain,它支持多种功能,包括联网检索。还有Llama Index,以前叫GPT Index,专门用于数据连接和检索。可能还有DuckDuckGo Search或者Serper API的集成?不过要确认是否开源。 另外,Toolformer这样的模型是否相关?不过它可能更多是模型层面的适应。还有Hugging Face的Transformers库有没有相关工具?或者Jina AI的解决方案? 需要检查这些工具的具体功能,是否支持大模型通过API访问网络,比如搜索、抓取网页内容,然后处理信息。还要注意技术架构,比如使用搜索引擎API、处理HTML、提取文本等步骤。 可能的结构是分点介绍每个工具,包括功能、技术特点、使用场景、代码示例(如果有的话)。然后比较它们的优缺点,帮助用户选择。同时要提到社区活跃度、文档是否完善,这对用户实际应用很重要。 需要确保提到的工具都是开源的,比如LangChain和Llama Index都是,而Serper API可能不是。DuckDuckGo Search的封装库可能是开源的,比如Goose之类的? 还要考虑用户可能的实际需求,比如是否需要实时信息、处理大量数据的能力、是否容易集成到现有项目等。可能需要给出选择建议,比如轻量级需求选哪个,复杂任务选哪个。 另外,用户可能关心如何保证信息的准确性和处理版权问题,这方面也需要简单提及,比如合理使用和遵守网站robots.txt。 最后,总结开源工具的优势,如可定制性、社区支持,以及可能的挑战,比如维护成本和性能优化。</think>以下是对开源大模型联网检索工具的详细介绍,分步骤说明其原理、主流工具及使用场景: 一、核心原理 大模型联网检索工具通过以下流程实现实时信息获取: 1. 接收用户查询 → 2. 调用搜索引擎API → 3. 抓取相关网页 → 4. 提取关键内容 → 5. 生成结构化数据 → 6. 输入大模型处理 → 7. 输出最终结果 二、主流开源工具对比 $$\begin{array}{|l|l|l|} \hline \text{工具名称} & \text{核心优势} & \text{典型应用场景} \\ \hline \text{LangChain} & \text{模块化设计,支持多数据源} & \text{企业知识库构建} \\ \hline \text{Llama Index} & \text{高效索引机制} & \text{学术文献检索} \\ \hline \text{DuckDuckGo Search} & \text{隐私保护优先} & \text{敏感信息查询} \\ \hline \text{WebGPT} & \text{强化学习优化} & \text{复杂问题解答} \\ \hline \end{array}$$ 三、技术实现要点 1. 搜索接口集成 - 免费方案:DuckDuckGo API(每日限额) - 付费方案:Serper API($5/万次) - 自定义方案:Selenium爬虫(需处理反爬) 2. 内容处理流程 ```python # 伪代码示例 def web_retrieval(query): search_results = ddg_search(query) # 执行搜索 cleaned_data = [] for url in search_results[:3]: html = download_page(url) text = clean_html(html) # 去除广告/导航 chunks = split_text(text) # 文本分块 cleaned_data.extend(chunks) return rank_content(cleaned_data) # 相关性排序 ``` 四、典型应用案例 1. 实时信息查询 - 股票价格追踪:$$P_t = P_{t-1} \times (1 + r_t)$$ - 新闻事件验证 2. 知识库增强 - 将最新论文注入模型上下文 - 补充时效性数据(如COVID防控政策) 五、选择建议 1. 新手入门:LangChain + DuckDuckGo(易用性优先) 2. 企业部署:Llama Index + 混合搜索引擎(性能优先) 3. 研究用途:WebGPT + 自定义爬虫(灵活性优先) 六、挑战与对策 1. 信息可靠性:集成FactCheckGPT等验证模块 2. 法律合规:设置robots.txt检测和访问频率控制 3. 性能优化:采用缓存机制($$T_{response} = T_{search} + T_{process} \times N_{pages}$$) 建议根据具体需求选择工具组合,初期可参考LangChain官方文档(https://langchain.readthedocs.io)快速搭建原型系统。实际部署时需注意网络延迟和API调用成本间的平衡。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值