- 博客(46)
- 收藏
- 关注
原创 Python主要版本的核心差异
摘要: Python实现主要分为CPython(官方标准)、PyPy(JIT加速)和GraalPy(JVM集成)。 CPython:兼容性强,3.11+版本性能提升25%,3.13+支持无GIL(+freethreaded)的多核并行,但需库适配。 PyPy:纯Python代码提速4-10倍,但C扩展支持有限。 GraalPy:集成JVM生态,适合Java/Python混合开发,性能接近PyPy。 选择建议: 通用开发选CPython 3.11+; 多核计算用Free-threaded CPython; 纯
2025-12-13 14:39:14
792
原创 HuggingFace Tasks 全量说明表
本文系统整理了HuggingFace平台支持的多模态任务分类表,涵盖六大领域:多模态(支持语音/图像/视频与文本互转)、计算机视觉(含图像分类/生成/3D建模等20项任务)、自然语言处理(包含文本生成/翻译/问答等12项功能)、音频处理(实现语音识别/合成等6类应用)、表格数据处理(支持分类/预测等任务)以及强化学习与图机器学习。每项任务均提供中英日三语说明,全面展示了AI模型在多模态交互、视觉理解、语言处理等方面的应用能力。(149字)
2025-12-09 20:05:39
678
原创 huggingface 名词速览表
本文系统梳理了当前AI/ML领域的主要技术框架与工具,涵盖深度学习、模型部署、NLP等六大领域。核心内容包括:1)主流深度学习框架(PyTorch、TensorFlow等)与高级API;2)预训练模型生态(Transformers、Diffusers等);3)模型部署优化工具(ONNX、Core ML等);4)特定任务工具(Scikit-learn、TensorBoard等);5)NLP/语音处理库(spaCy、NeMo等);6)垂直领域方案(PaddleOCR、Habana等)。该速览表为开发者提供了全面
2025-12-07 20:57:30
561
原创 Mary Meeker《AI趋势报告2025》内容总结
AI不是选择题,而是生存题”。当中国模型用“白菜价”撕开市场,印度用户用脚投票选择性价比时,固步自封者将被时代抛弃。这份报告揭示了AI技术正引发的全球权力重新洗牌,强调了及时拥抱变革的紧迫性。
2025-11-03 22:50:04
555
原创 《AI的未来:从“召唤幽灵”到学会反思》
AI领域资本热潮与质疑并存之际,前特斯拉AI负责人安德烈·卡尔帕蒂提出深刻见解:AGI仍需十年,当前AI存在根本性认知缺陷。
2025-10-19 20:53:02
164
原创 可视化 GraphRAG 构建的知识图谱 空谈版
摘要: GraphRAG是一种基于知识图谱的检索增强生成方法,通过结构化处理文档构建包含实体、关系、语义社区等要素的知识图谱。核心数据包括文本块(基础单元)、实体(节点)、关系(语义连接)、社区(聚类)及社区报告(摘要),存储为Parquet文件。使用Neo4j可视化展示图谱结构,可观察实体关联与主题聚类,但其规模需结合子图查询工具分析。相比传统向量RAG,GraphRAG支持多跳推理和语义组织,但需通过编程接口深入挖掘全图信息。开发者可通过实践从数据提取到可视化的全流程,深入理解其工作机制。 (字数:15
2025-09-23 22:27:51
1128
原创 RAG策略对比(2025-09 版)
本文对比分析了18种RAG(检索增强生成)技术。自适应RAG以0.86分位居榜首,其核心优势在于能根据查询类型动态选择检索策略。层次化索引和融合检索分列二三位,分别通过两级检索和结合向量/关键词搜索来提高效果。研究显示,高成本技术(如知识图谱)适合有技术积累的企业,而中小企业可优先选择重排序+文档增强等性价比方案。未来趋势将向混合式、自适应、带反馈机制的智能RAG架构发展。
2025-09-21 20:04:26
738
原创 AI 编程工具选型速览(2025-09 版)
2025年主流AI编程工具横向对比显示:国内免费工具(通义灵码、豆包、CodeBuddy)适合新手入门;国际工具中Trae性价比最高(10$/月),Claude Code(100-200$/月)适合预算充足的中大型项目。关键选型因素包括价格、模型质量(Claude 3.5/GPT-4o最优)、响应速度及易用性,建议根据项目规模和个人技术水平组合使用不同工具。
2025-09-12 19:42:43
565
原创 构建知识图谱之三(自动知识图谱构建方法综述及挑战分析)
文中还介绍了知识精炼模型,如知识图谱补全和知识融合,并提供了条件知识获取、条件知识图谱补全和知识动态等方法来处理知识演化。这些工具各自专注于知识图谱构建过程中的不同阶段,从数据收集、预处理到知识抽取和嵌入,为知识图谱的创建和维护提供了一套完整的解决方案。图片底部的说明指出,这是对HACE环境中挑战的说明,涉及异构数据、半结构化和非结构化数据的知识图谱构建方法将在第4节中概述。这些模型的比较展示了在关系抽取任务中,如何通过不同的方法来增强模型的性能,包括特征提取、学习策略、实例特征和背景信息的利用。
2024-12-27 14:07:37
1392
原创 2024年最佳向量数据库简单对比
如果需要更灵活的开源解决方案,Weaviate和PG Vector则是不错的选择。最终,选择哪个向量数据库取决于您的具体用例和组织需求,包括您是否需要云托管或开源解决方案,以及您对性能、成本和易用性的偏好。商业版则为企业提供更高性能和额外功能。一些数据库存在学习曲线陡峭、稳定性问题和有限的定制选项,如Weaviate、PG Vector和KX,它们需要较强的技术背景才能充分利用其功能。多数用户赞赏这些数据库的易用性、高效的查询性能和强大的功能,特别是在处理大规模向量数据和与AI/LLM兼容方面。
2024-11-25 23:05:12
3764
原创 OCR提取影印版PDF文档的中日英三种文字
影印版的 PDF 文档由于是扫描或影印得到的图像,无法直接提取其中的文字。因此,我们需要使用 OCR 技术来识别并提取图片中的文字。
2024-10-18 20:34:01
1299
原创 GraphRAG 构建知识库自测总结
环境:电脑无显卡,本地模型处理速度慢。结果:任务超时,未能成功完成,尝试无疾而终。以上尝试未考虑提示词的优化。构建知识库的过程充满挑战,不易达成预期效果。为了提升效果,需要进一步调整提示词并进行长时间的调试。
2024-10-18 12:43:36
430
原创 GraphRAG + Ollama + Groq 构建知识库 续篇 利用neo4j显示知识库
在上一篇文章中,我们详细介绍了如何创建一个知识库。尽管知识库已经建立,但其内容的可视化展示尚未实现。我们无法直接看到知识库中的数据,也就无法判断这些数据是否符合我们的预期。为了解决这个问题,本文将向你展示如何使用Neo4j这一强大的图形数据库,将知识库中的数据以图形化的形式呈现出来。
2024-10-16 22:58:23
1333
原创 langchain的Retrievers调查报告
请注意,"是否是第三方API"列是根据服务是否由原开发团队以外提供来判断的。例如,Weaviate和Chroma等可能是由其开发团队直接提供的,而Vectara和Tencent Cloud VectorDB等服务可能是第三方API。具体情况可能根据服务的实际提供情况有所不同。请注意,开发团队列是根据每个技术通常被归属的组织或项目进行填写的。有些项目可能是由特定的公司或组织开发的,而其他一些可能是由开源社区或多个贡献者共同开发的。此外,某些服务可能由不同的团队或公司提供,具体取决于服务的性质和提供方式。
2024-06-26 10:09:27
557
原创 Java 排查,评测/刨析,监测,管理的工具の简介
每一种计算机开发语言为了辅助开发都会给出一系列的工具来辅助开发。python开发的时候上层会有line_profiler分析语句级别的工具,然后底层会有memory_profiler分析内存,cpu,进程,线程的工具。这些算是动态分析工具,还有静态分析工具Pylint。简单介绍一些java的排查,评测/刨析,监测,管理的工具jcmd jdk1.7之后新加的工具。该工具需要向jvm发送诊断命令,所以必须和jvm在同一台机器上使用。并且需要拥有和jvm同等权限。 需要远程调用jcmd的时...
2021-10-14 11:57:40
215
原创 JRE 和 JDK
JRE 和 JDK 的区别是什么?JDK主要包含三部分,第一部分就是Java运行时环境,JVM。第二部分就是Java的基础类库,这个类库的数量还是非常可观的。第三部分就是Java的开发工具,它们都是辅助你更好的使用Java的利器。JRE顾名思义是java运行时环境,包含了java虚拟机,java基础类库。是使用java语言编写的程序运行所需要的软件环境,是提供给想运行java程序的用户使用的。如果安装了JDK,会发同你的电脑有两套JRE。一套位于\Java\jdk1.8 \jre一.
2021-10-14 11:16:16
151
原创 系统架构演进,待续
系统架构演进单一应用架构当网站流量很小时,只需一个应用,将所有功能都部署在一起,以减少部署节点和成本。此时,用于简化增删改查工作量的 数据访问框架(ORM) 是关键。垂直应用架构当访问量逐渐增大,单一应用增加机器带来的加速度越来越小,将应用拆成互不相干的几个应用,以提升效率。此时,用于加速前端页面开发的 Web框架(MVC) 是关键。分布式服务架构当垂直应用越来越多,应用之间交互不可避免,将核心业务抽取出来,作为独立的服务,逐渐形成稳定的服务中心,使前端应用能更快速的响应多变的市...
2021-02-09 16:43:22
229
1
原创 scrapy+selenium+chrome:问题笔记,持续更新。。。
20210207:问题:个别文件不请自来,竟然自动下载到了我的工程代码路径下。如何特定问题原因:开始有些盲目,以为可以直接百度谷歌到真正的原因。还是太天真。寻找问题原因,还是要debug。先浏览一边代码在自己认为可能出问题的加上断点,然后debug。driver.get(request.url)这句执行之后,文件就下载了。此时我还在考虑代码的问题。其实这个时候应该把问题转到浏览器上了。把url拷贝到浏览器上,果然开始自动下载了。开始想如何禁止浏览器的自动下载。其实这个思路不对的。
2021-02-07 15:27:27
427
原创 备忘--常用命令(一)
linux:命令行打开当前目录文件夹或文件nautilus .// 空格 + 点watch命令文件查找。其中查找的命令主要有find和grep。区别:(1)find命令是根据文件的属性进行查找,如文件名,文件大小,所有者,所属组,是否为空,访问时间,修改时间等。 (2)grep是根据文件的内容进行查找,会对文件的每一行按照给定的模式(patter)进行匹配查找。windows:命令行打开当前目录文件夹或文件start . // 空格 + 点...
2021-01-16 22:50:52
280
1
原创 linux-shell常见问题。。待续。。
字符串处理总结截取#* 和 ##*#删除从左到右,第一个匹配字符串为止。相当于left##删除从左到右,最后一个匹配字符串为止%*和%%*%删除从右到左,第一个匹配字符串为止。相当于right%%删除从右到左,最后一个匹配字符串为止。${:}或者${::}${str:start}${str:start:len} 正数从左开始,负数从右开始${str//,/ } 意思是讲,替换成空格缺点是如果分隔的字符串含有空格,这个分割就会错误。下面的方法,可解决上面的问..
2021-01-16 22:49:23
167
原创 python培训 第十三课,正则。
正则文本操作的瑞士军刀。1.只适合匹配文本字面,不适合匹配文本意义:像匹配url,email这种纯文本的字符就很好,但比如匹配多少范围到多少范围的数字,如果你这个范围很复杂的话用正则就很麻烦。或者匹配html,这个是很多人经常遇到的,写一个复杂匹配html的正则很麻烦,不如使用针对特定意义的处理器来处理(比如写语法分析器,dom分析器等)2.容易引起性能问题:像.*这种贪婪匹配符号很容易造...
2019-10-06 00:05:16
166
原创 python培训 第十二课,多线程,多进程。
python多线程创建线程python中有两种方式实现线程:实例化一个threading.Thread的对象,并传入一个初始化函数对象(initial function )作为线程执行的入口; 继承threading.Thread,并重写run函数;python多进程创建进程创建进程的方式和创建线程的方式类似:实例化一个multiprocessing.Process的对...
2019-10-05 23:54:04
171
原创 python培训 第十一课,网络编程。
网络基础知识,socket编程,tcp,udp等,参照https://www.cnblogs.com/dalaoban/p/9331113.html读取网页HTML代码,并保存旧版Python中urllib模块内有一个urlopen方法可打开网页,但新版python中没有了,新版的urllib模块里面只有4个子模块(error,request,response,par...
2019-10-05 23:47:01
253
原创 python培训 第十课,linux命令。
操作时备查。系统信息arch 显示机器的处理器架构uname -m 显示机器的处理器架构uname -r 显示正在使用的内核版本dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI)hdparm -i /dev/hda 罗列一个磁盘的架构特性hdparm -tT /dev/sda 在磁盘上执行测试性读取操作cat /proc/cpui...
2019-10-05 23:22:19
167
原创 python培训 第九课,python语法进阶。深拷贝,浅拷贝,property属性,with语句,上下文管理器,闭包,装饰器。切片+列表生成式+条件过滤+多层表达式
切片(slice)的理解L1=[1,2,3,4,5,6,7,8,9,0]L2=L1[:] #表示从头到尾切片,等价于复制L1L3=L1[:2] #表示从索引0开始,到所有2结束,但是不包括索引2L4=L1[1:4] #表示将L1中索引为1,2,3的元素复制到L4L5=L1[-4:-1]#倒序切片字符串以可以使用上面的切片。range() 函数可创建一个整数列表,一...
2019-10-05 23:08:11
180
原创 python培训 第八课,模块和包。
在Python中,一个.py文件就称之为一个模块(Module)。好处大大提高了代码的可维护性避免函数名和变量名冲突Python又引入了按目录来组织模块的方法,称为包(Package)。每一个包目录下面都会有一个__init__.py的文件,这个文件是必须存在的,否则,Python就把这个目录当成普通目录,而不是一个包。__init__.py可以是空文件,也可以有P...
2019-10-04 23:19:08
138
原创 python培训 第七课,异常处理。捕获异常,异常的传递,自定义异常。
异常处理防止程序意外终止。这就需要我们捕获异常,然后分析异常,最后指导我们正确地完成处理任务。捕获异常try: <语句>except: print('异常说明')捕获指定异常try: <语句>except <异常名>: print('异常说明')万能异常:try: ...
2019-10-04 23:05:28
200
原创 python培训 第六课,面向对象。类的定义,创建,属性的添加和获取,私有方法,属性,继承,多态,类方法,对象方法,静态方法。
类:python中一切皆为对象,类型的本质就是类在python中,用变量表示特征,用函数表示技能,因而具有相同特征和技能的一类事物就是‘类’,对象是则是这一类事物中具体的一个。定义类是通过class关键字:class Student(object): passpython中定义class的时候,有object和没有object的不同?例如:class Soluti...
2019-10-04 22:37:46
180
原创 python培训 第五课,文件操作。
使用open()函数来打开一个文件, 获取到文件句柄打开文件的方式: r, w, a, r+, w+, a+, rb, wb, ab, r+b, w+b, a+b 默认使用的是r(只读)模式需要注意encoding表示编码集. 根据文件的实际保存编码进行获取数据, 对于我们而言. 更多的是utf-8.在rb模式下. 不能选择encoding字符集.rb的作用: 在读取非文本文件的时候....
2019-10-04 21:07:04
133
原创 python培训 第四课,函数,函数定义,调用,匿名函数,不定长参数,递归函数,可变/不可变类型。
定义: 函数是指将一组语句的集合通过一个名字(函数名)封装起来,要想执行这个函数,只需调用其函数名即可。函数的好处1、简化代码2、提高代码的复用性3、代码可扩展定义函数使用def关键字,后面是函数名,函数名不能重复def fun():#定义一个函数,后面是函数名 print("Hello World")#函数体函数在调用的时候,可以传入参数,...
2019-10-04 20:46:40
243
原创 python培训 第三课,容器、迭代器、生成器
容器(container)容器是一种把多个元素组织在一起的数据结构,容器中的元素可以迭代获取,可用in, not in关键字判断元素是否包含在容器中。在Python中,常见的容器对象有:list(列表),set(集合),dict(字典),tuple(元组),str(字符串)(也有相关资料说str是原子类型数据,不属于容器范畴)等。 可迭代对象(iterable)很多容器都是可迭代对象,...
2019-10-03 23:34:30
239
原创 python培训 第二课,条件控制,循环语句,break,continue,比较关系运算,逻辑运算,三目运算。
条件控制,循环语句具体内容参照下面的博客。https://www.cnblogs.com/gzhjj/p/10661008.html#_caption_0https://blog.csdn.net/sxau_zhangtao/article/details/96495278除了if有else之外,for/while循环也有else。需要注意的是有else的循环,break语句终止循...
2019-10-03 15:34:45
208
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅