
数据科学
文章平均质量分 91
deepdata_cn
极深数据,深耕数据行业。
展开
-
仿真建模工具(VISSIM)
VISSIM是一款由德国PTV公司开发的微观交通仿真建模工具,专为城市交通和公共交通系统的运行进行详细的交通流模拟。该软件基于时间间隔和驾驶行为模型,能够提供高度精确的多模式交通流仿真。1974年,卡尔斯鲁厄大学的Rainer Wiedemann在其博士论文中提出了“Wiedemann 74”心理-生理跟车模型,并在大型计算机上用Algol语言实现。这一模型最初被称为“INTAC”,用于描述单车道的跟车情况。随后,一系列博士论文扩展了该模型。原创 2025-05-09 07:30:00 · 942 阅读 · 0 评论 -
最近邻搜索库(Annoy)
Annoy(Approximate Nearest Neighbors Oh Yeah)由Spotify公司开发。在音乐推荐等场景中,需要处理大规模的音频特征向量,进行高效的最近邻搜索。传统的精确最近邻搜索算法在处理大规模数据时效率低下,无法满足实时性要求,因此Spotify开发了Annoy来解决这一问题。Annoy以开源形式发布后,因其高效的近似最近邻搜索能力受到了广泛关注。社区对其进行不断优化和扩展,使其在更多领域得到应用,逐渐成为解决大规模向量数据搜索问题的常用工具之一。原创 2025-02-14 07:45:00 · 1266 阅读 · 0 评论 -
BERT算法族
BERT(Bidirectional Encoder Representations from Transformers)算法即双向Transformer编码器表征,是一种用于自然语言处理(NLP)的预训练模型,由谷歌在2018年提出。BERT算法为自然语言处理领域带来了重大突破,为各种NLP任务提供了强大的基础模型,后续许多NLP研究和应用都是在BERT的基础上进行改进和扩展的。原创 2025-02-05 08:00:00 · 1766 阅读 · 0 评论 -
分层可导航小世界图(HNSW)
HNSW(Hierarchical Navigable Small World)图即分层可导航小世界图,是一种用于在高维空间中进行近似最近邻搜索(Approximate Nearest Neighbor Search, ANN)的数据结构和算法,在向量数据库等领域有着广泛应用HNSW图的设计灵感来源于小世界网络理论。在小世界网络中,大多数节点彼此并不相邻,但任意两个节点之间的平均路径长度却相对较短。原创 2025-02-02 07:45:00 · 1054 阅读 · 0 评论 -
K维树(KD - Tree)
KD - Tree(K - Dimensional Tree)即 k 维树,是一种用于高效处理 k 维空间数据的数据结构,在计算机科学和机器学习领域有着广泛应用,下面从基本概念、构建过程、搜索过程、应用场景几个方面为你详细介绍:KD - Tree 是一种二叉搜索树的变体,它将 k 维空间递归地划分为多个区域。每个节点代表 k 维空间中的一个点,同时将空间划分为两个半空间。通过这种方式,KD - Tree 可以有效地组织和存储高维空间中的数据点,从而实现快速的最近邻搜索、范围搜索等操作。原创 2025-02-02 07:30:00 · 1283 阅读 · 0 评论 -
开源数据可观测性平台(Datavines)
Datavines是一款开源的数据可观测性平台。2024 年左右,Datavines 项目正式在 GitHub 上开源。初始版本可能重点实现了一些基础的数据质量监控功能,如支持对常见数据源(如 MySQL、PostgreSQL 等)的数据连接,内置了部分基本的数据质量检查规则,像空值检查、数据类型检查等。功能完善与扩展阶段:开源后,团队持续对 Datavines 进行功能完善和扩展。原创 2025-01-29 07:45:00 · 910 阅读 · 0 评论 -
数据可视化语法工具(VegaLite)
VegaLite 是一种用于数据可视化的语法和工具。VegaLite是基于Vega可视化语法的一种高层次、简洁的可视化规范。它提供了一种声明式的方式来描述数据可视化,让用户能够通过简单的JSON格式或特定的编程语言接口来定义可视化的各个方面,如图形类型、数据映射、视觉编码等,而无需详细了解底层的绘图细节和复杂的交互逻辑。原创 2025-01-28 07:00:00 · 742 阅读 · 0 评论 -
余弦相似度(Cosine Similarity)
余弦相似度是一种用于衡量两个向量之间相似度的度量方法。在向量空间模型中,它通过计算两个向量夹角的余弦值来确定它们的相似程度。对于两个非零向量A和B,余弦相似度的取值范围是−11。当余弦相似度为1时,表示两个向量完全相似;当为−1时,表示完全相反;当为0时,表示两个向量正交(即相互垂直,没有任何相似成分)。原创 2025-01-27 08:00:00 · 1104 阅读 · 0 评论 -
近似最近邻搜索(ANNS)
近似最近邻搜索(Approximate Nearest Neighbor Search,ANNS)是一种在高维向量空间中寻找与给定查询向量相近向量的技术。在精确的最近邻搜索(NNS)中,目标是找到距离查询向量最近的一个或多个向量。然而,随着数据维度的增加和数据规模的扩大,精确搜索在计算上变得非常昂贵。ANNS通过牺牲一定的精度来换取搜索速度的大幅提升。原创 2025-01-24 07:30:00 · 1120 阅读 · 0 评论 -
数据可视化工具(Frappe Insights)
Insights用于可视化挖掘PostgreSQL数据库的工具,在图形生成方面具有较强优势。支持PostgreSQL连接,自动检测发现数据库,允许连接到多个数据库,并允许模式编辑和添加自定义SQL字段,还提供数据挖掘、过滤器、基于时间的图形等功能。为满足企业和个人对于数据分析和可视化日益增长的需求,以及解决传统商业智能工具复杂、昂贵、难用等问题,基于Frappe框架进行开发,从一开始就致力于打造一个开源、易用、功能强大的数据可视化和分析平台。原创 2025-01-23 07:30:00 · 792 阅读 · 0 评论 -
数据科学平台(Nebari)
Nebari是一个开源的数据科学平台,构建于可扩展性和协作性之上,集成了JupyterHub和Dask Gateway等工具,利用Terraform、Helm、GitHub Actions等技术,可应用于学术研究、企业级数据平台、教育机构、高性能计算等场景。原创 2025-01-06 07:30:00 · 595 阅读 · 0 评论 -
开源数据可视化和监控工具(Grafana)
Grafana是一款流行的开源数据可视化和监控工具,支持多种数据源,如Prometheus、Graphite、InfluxDB等。它提供了丰富的可视化组件和仪表盘模板,用户可以轻松地创建各种美观且实用的数据可视化图表和监控仪表盘,以便更好地理解和分析数据。在数据安全方面,Grafana支持用户认证和授权,可与LDAP、OAuth等身份验证系统集成,确保只有授权用户能够访问和操作相应的数据和仪表盘。原创 2024-12-30 07:30:00 · 1315 阅读 · 0 评论 -
推荐系统库(MyMediaLite)
MyMediaLite 是一个 C 编写的推荐系统库,提供了多种推荐算法的实现,包括协同过滤、基于内容的推荐、矩阵分解等。它可以用于构建各种类型的推荐系统,并且支持在线学习和增量更新。MyMediaLite 由德国希尔德斯海姆大学的研究人员开发,其开发部分受到了欧洲委员会第七框架计划项目“动态个性化多媒体(MyMedia)”的资助。作为开源软件,它依据 GNU 通用公共许可证(GPL)进行发布,用户可以免费使用和修改源代码,这为开发者提供了极大的灵活性和可扩展性。原创 2024-10-25 07:45:00 · 1052 阅读 · 0 评论 -
推荐系统应用(LightFM)
LightFM 是一个 Python 库,它结合了矩阵分解和基于内容的推荐算法,能够有效地处理稀疏数据,并且在推荐效果上表现良好。它可以用于构建各种类型的推荐系统,如音乐推荐、电影推荐、商品推荐等。LightFM 模型由用户和物品的潜在特征向量组成。这些潜在特征向量通过对用户和物品的交互数据进行学习得到。对于显式反馈数据,模型试图预测用户对物品的评分。对于隐式反馈数据,模型试图预测用户是否会与物品产生交互。LightFM 使用随机梯度下降等优化算法来最小化损失函数。原创 2024-10-17 07:45:00 · 1843 阅读 · 0 评论 -
推荐系统(Surprise)
Surprise 是一个 Python 库,专门用于构建和评估推荐系统。它提供了一系列的算法,如基于用户的协同过滤、基于物品的协同过滤、奇异值分解(SVD)等,同时还支持模型的训练、评估和调优。原创 2024-10-16 07:30:00 · 2250 阅读 · 0 评论 -
基于深度学习的推荐系统(Fast Recommend)
Fast Recommend 是一个基于深度学习的推荐系统框架,它使用神经网络模型来学习用户和项目的特征表示,从而实现精准的推荐。它支持多种神经网络模型,如多层感知机(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)等。原创 2024-10-15 07:45:00 · 2338 阅读 · 0 评论 -
协同过滤推荐算法(Slope-One)
Slope-One 算法是一种简单且高效的协同过滤推荐算法,主要用于基于用户评分数据的推荐系统中。原创 2024-10-15 07:30:00 · 1723 阅读 · 0 评论 -
多媒体算法平台(Open-MMLab)
Open-MMLab:这是一个专注于计算机视觉和多媒体领域的开源算法平台,旗下有音频 AIGC 开源工具包 Amphion。Amphion 集成了语音合成转换、歌声合成转换、音效音乐生成等多功能,为开发者提供了一个强大的音频 AIGC 开发工具。Open-MMLab是上海人工智能实验室的计算机视觉算法开源体系,也是深度学习时代全球领域最全面、最具影响力的视觉算法开源项目。原创 2024-10-14 07:30:00 · 1031 阅读 · 0 评论 -
推荐系统(Apache Mahout)
Apache Mahout 是 Apache 软件基金会的一个开源项目,旨在为开发人员提供可扩展的机器学习算法实现,帮助创建智能应用程序。Mahout基于 Hadoop 的机器学习,包含了许多可用于构建推荐系统的算法实现,比如协同过滤、聚类等算法。它能够处理大规模的数据,非常适合企业级的应用场景。原创 2024-10-14 07:45:00 · 771 阅读 · 0 评论 -
数据探索工具(Superset)
Superset由 Airbnb 贡献的轻量级 BI 产品,在 Github 上很受欢迎。它提供了 dashboard 和多维分析两大类功能,数据源支持广泛,包括 CSV、MySQL、Oracle、Redshift、Drill、Hive、Impala、Elasticsearch 等多种。其可视化效果好,直接支持几十种图形,还提供图形扩展支持,可对接如 Echarts、AntV、Highcharts、Vx 和 D3 等可视化库。原创 2024-09-04 07:45:00 · 1214 阅读 · 0 评论 -
科研绘图软件(Scidavis)
Scidavis是一款免费、开源的跨平台科研绘图软件,主要用于科学数据的分析和可视化。Scidavis开发始于2007年,是qtiplot的分支,而qtiplot则是科研绘图软件Origin的克隆。qtiplot开发于2004年,由Ion Vasilief发起,直到2006年5月Knut Franke和Tilman Hoener zu Siederdissen加入该项目,之后Roger Gadiou正式加入成为主要的文档撰写人。原创 2024-08-31 07:45:00 · 2823 阅读 · 0 评论 -
数据探索工具(Metabase)
Metabase是一个开源的数据分析和可视化工具,旨在帮助用户轻松地探索和理解数据。Metabase的发展历程如下:起源于2015年,目标和愿景是让公司能快速将辛苦收集的数据提供给最能利用它的人,使其成为每个公司获取数据的第一步。它在数据源支持、数据分析和可视化等方面不断发展,为用户提供了便捷、高效的数据分析工具。原创 2024-08-28 07:45:00 · 1013 阅读 · 0 评论 -
数据科学工具(KNIME)
KNIME(Konstanz Information Miner)是一款功能强大的开源数据分析、可视化和部署工具。KNIME 的发展始于 2004 年 1 月,由康斯坦茨大学的软件工程师团队作为专有产品开发。其原始开发团队来自硅谷的一家公司,最初目标是创建一个模块化、高度可扩展和开放的数据处理平台,以便轻松集成不同的数据加载、处理、转换、分析和可视化探索模块,而不必关注特定的应用领域。在发展初期,KNIME 专注于构建核心功能,包括基本的数据处理、分析和可视化能力。原创 2024-08-26 07:45:00 · 1793 阅读 · 0 评论 -
数据科学工具(Apache Spark)
Apache Spark 是一个开源的分布式计算系统,广泛用于大数据处理和分析。它提供了一个快速、通用和可扩展的数据处理平台,能够处理各种数据源和数据类型。Apache Spark 的发展历史始于2009年,当时它是加州大学伯克利分校AMP实验室的一个研究项目,目的是解决大规模数据处理问题。2010年,Spark 作为开源项目对外发布,并因其简化的MapReduce编程模型和高效的分布式计算能力迅速受到关注。2013年,Spark 加入Apache软件基金会,并成为Apache的顶级项目。原创 2024-08-26 07:30:00 · 1134 阅读 · 0 评论 -
标杆分析法(Benchmarking Analysis Method)
标杆分析法(Benchmarking Analysis Method)是一种将企业自身的产品、服务、流程等与同行业内或其他行业的优秀企业进行比较和衡量,以识别自身的优势和不足,并寻求改进和优化机会的管理方法。它的基本原理是通过对最佳实践的研究和学习,借鉴他人的成功经验,从而提高自身的绩效和竞争力。在实施标杆分析时,首先要确定标杆分析的目标和范围,明确要改进和评估的领域,例如生产效率、客户服务、成本控制等。原创 2024-08-14 08:29:18 · 1644 阅读 · 0 评论 -
风险分析法(Risk Analysis Method )
风险分析法(Risk Analysis Method )是一种用于评估和量化潜在风险的方法,它可以帮助个人或组织识别、评估和优先处理风险。风险分析法的发展有着较为漫长的历史,其起源可以追溯到多个领域的早期实践和理论探索。在古代,人们在进行商业交易、农业生产和航海等活动时,已经开始意识到不确定性和潜在的风险,并尝试通过一些简单的经验和直觉来进行判断和应对。然而,这些早期的尝试还缺乏系统的方法和理论支持。在工业革命时期,随着企业规模的扩大和生产活动的复杂化,对风险的评估和管理需求日益增加。原创 2024-08-15 07:30:00 · 1030 阅读 · 0 评论 -
关键路径分析法(Critical Path Analysis,CPA)
关键路径分析法(Critical Path Analysis,CPA)是一种项目管理工具,用于确定项目中的关键任务和关键路径。这种方法基于网络图,通过分析项目任务之间的依赖关系来确定完成项目所需的最短时间。关键路径是项目中一系列连续的任务,它们决定了项目的总持续时间,任何延误都可能导致整个项目的延期。关键路径分析法也被称为关键路径法(Critical Path Method, CPM),起源于20世纪50年代末。原创 2024-08-14 07:45:00 · 1436 阅读 · 0 评论 -
PEST分析方法
PEST分析是一种常用的战略外部环境分析工具,主要用于评估影响企业或组织的宏观环境因素。PEST 分析方法最早由哈佛经济学教授弗朗西斯·阿吉拉尔(Francis J. Aguilar)于 1967 年提出,是用于判断外部宏观环境的一种理论框架。PEST分析有助于企业从不同角度全面了解外部环境,评估这些宏观因素对企业战略目标和战略制定的影响。原创 2024-08-13 07:45:00 · 2369 阅读 · 0 评论 -
SWOT分析法
SWOT分析法是一种战略规划工具,用于评估一个组织、项目或个人的优势(Strengths)、劣势(Weaknesses)、机会(Opportunities)和威胁(Threats)。SWOT分析法最初由哈佛商学院的肯尼斯·安德鲁斯(Kenneth R. Andrews)教授在1971年的《公司战略论》一书中提出,用于企业战略规划。目前常与其他分析工具如PEST分析和波特五力模型等结合使用,以提供更全面的视角。原创 2024-08-13 07:30:00 · 1152 阅读 · 0 评论 -
系统方程分析(System Equation Analysis)
系统方程分析(System Equation Analysis)是一种数学和工程学方法,用于研究和理解复杂系统的行为。这种分析通常涉及构建和求解描述系统状态和随时间变化的方程。系统可以是物理的、化学的、生物的、经济的或任何其他类型的,只要它们的行为可以用数学模型来描述。原创 2024-08-12 07:45:00 · 1392 阅读 · 0 评论 -
对应分析(Correspondence Analysis,CA)
对应分析(Correspondence Analysis,CA)是一种多维统计分析方法,主要用于分析名义尺度或序数尺度的分类数据。它是一种探索性数据分析技术,用于揭示分类变量之间的关系,以及它们如何相互关联。对应分析通常用于市场研究、社会科学、生物学等领域。对应分析的基本思想是将列联表(一个包含两个或多个分类变量的表格)中的行和列转换为点,这些点在低维空间(通常是二维或三维)中表示,以便于可视化和解释。通过这种方式,对应分析可以揭示变量之间的内在结构和关系。原创 2024-08-12 07:30:00 · 3238 阅读 · 0 评论 -
TextCNN(卷积神经网络用于文本)
TextCNN是一种用于文本分类的卷积神经网络(CNN)模型,由Yoon Kim在2014年提出。它通过将卷积神经网络应用于自然语言处理任务,特别是文本分类,有效地捕捉了文本中的局部特征。原创 2024-08-05 08:00:00 · 1428 阅读 · 0 评论 -
CLUB(Clustering Bandits)算法
CLUB(Clustering Bandits)算法是一种针对大数据集的无监督聚类算法,它特别适合于在分布式系统中使用。这种算法通过将数据点分配给中心点来组织数据,每个中心点代表一个聚类。CLUB算法的核心思想是利用随机性来探索数据空间,并基于数据点之间的相似度来构建聚类。原创 2024-08-05 07:30:00 · 1285 阅读 · 0 评论 -
词向量(Global Vectors for Word Representation,GloVe)
GloVe(Global Vectors for Word Representation)是一种用于获取词向量(Word Embedding)的模型。它结合了全局矩阵分解和局部上下文窗口方法的优点。通过在共现矩阵的基础上构建模型,学习词与词之间的语义关系,并将每个词表示为一个低维向量。GloVe由斯坦福大学和Google的研究人员在2014年提出。GloVe模型的核心思想是通过分析词与词之间的共现统计信息来生成词向量。原创 2024-08-04 07:45:00 · 840 阅读 · 0 评论 -
文档聚类技术(Document Clustering)
文档聚类技术(Document Clustering)是一种将大量文档按照相似性自动分组的方法。它的主要作用在于帮助人们更好地理解和组织大量的文本数据。通过将相似的文档归为一类,可以快速发现文档集合中的主题结构和模式。原创 2024-08-04 07:30:00 · 1137 阅读 · 0 评论 -
递归下降解析算法(Recursive Descent Parsing)
递归下降解析算法(Recursive Descent Parsing)是一种自上而下的解析技术,广泛应用于编译器和解释器的设计中,用于分析编程语言或任何形式语言的语法结构。它根据给定的文法规则(通常采用巴科斯范式,即BNF形式)来解析输入串,通过一系列的函数调用模拟文法规则的递归定义,从而识别出输入中的语法结构。原创 2024-08-03 09:13:50 · 1381 阅读 · 0 评论 -
浅层神经网络结合SGNS在自然语言处理中的应用
Skip-Gram模型Skip-Gram模型是一个简单的两层神经网络架构,包括输入层和输出层。输入层将每个单词映射到一个高维向量空间中,输出层则负责预测给定中心词的上下文单词。模型参数主要是词向量矩阵,通过最大化条件概率来学习。Negative Sampling策略通过以下方式工作:对于每个训练样本(即一个中心词与其正确上下文词的对),额外选取几个随机的、实际上并不与中心词共现的单词作为负例。模型的目标转变为最大化正例对的概率同时最小化这些负例对的概率。原创 2024-08-02 07:45:00 · 511 阅读 · 0 评论 -
句子向量表示(Sentence2Vec)
句子向量表示(Sentence2Vec)是一种将句子转换为向量表示的技术。它的主要目的是将文本中的句子转换为数值向量,以便在机器学习和自然语言处理任务中进行处理和分析。通过将句子表示为向量,可以使用向量之间的距离或相似度来衡量句子之间的语义相似性。例如,在文本分类任务中,可以先将每个文本句子转换为 Sentence2Vec 向量,然后使用这些向量作为输入来训练分类模型。在实际应用中,Sentence2Vec 有助于提高自然语言处理任务的效率和准确性,例如信息检索、问答系统、情感分析等。原创 2024-08-02 07:30:00 · 635 阅读 · 0 评论 -
Item2Vec项目表示向量技术
Item2Vec 是一种基于深度学习的技术,用于项目(item)的嵌入表示。这种技术通常用于推荐系统,其中物品可以是任何东西,比如商品、电影、歌曲等。Item2Vec 与 Word2Vec 类似,Word2Vec 是一种用于生成词嵌入的技术,它通过训练模型来预测一个词的上下文来生成词的向量表示。它的基本思想是受到了自然语言处理中 Word2Vec 模型的启发。在 Item2Vec 中,将用户与项目的交互行为(例如购买、浏览、评价等)看作是一种类似于文本中的“句子”,而每个项目则类似于“单词”。原创 2024-08-01 07:45:00 · 594 阅读 · 0 评论 -
监督学习(Supervised Learning)
监督学习是机器学习的基石之一,它的应用范围从简单的数据预测到复杂的模式识别无所不包。随着计算能力的提升和算法的不断进步,监督学习将继续推动人工智能技术的发展,为医疗、金融、教育等多个行业带来革命性的变化。理解其基本原理、掌握常用算法及其实现,对于从事数据科学、人工智能领域的专业人士而言至关重要。原创 2024-07-31 07:45:00 · 709 阅读 · 0 评论