• 博客(685)
  • 资源 (1)
  • 收藏
  • 关注

原创 开源语言技术平台(LTP)

LTP由哈工大开源,是一系列中文自然语言处理工具的集合,提供了分词、词性标注、命名实体识别、语义角色标注、依存句法分析等多种功能。LTP功能较为全面,对于中文文本的处理能力较强,其依存句法分析功能可以帮助用户分析句子中词语之间的依存关系,为进一步的文本理解和分析提供支持。

2024-10-02 07:45:00 910

原创 语义分析工具(OpenHowNet)

OpenHowNet由清华大学自然语言处理实验室(THUNLP)开发。它在传统的 HowNet 基础上进行了扩展和更新,使用“概念”和“属性”来描述词的意义,每个概念都有具体的意义和上下文,属性描述概念间的关联。利用深度学习模型自动标注数据,提供了简洁易用的 API,方便开发者将其集成到应用或研究中。可用于自然语言理解、文本生成、情感分析等,能帮助 AI 更好地理解人类语言,提升聊天机器人、问答系统、语音识别等应用的理解能力,也可以辅助分析文本的情感倾向。

2024-10-02 07:30:00 493

原创 自然语言处理工具包(Stanford CoreNLP)

Stanford CoreNLP:斯坦福大学开发的自然语言处理工具包,提供了词性标注、命名实体识别、依存句法分析等功能,可以用于从文本中抽取知识并进行预处理,为构建知识图谱提供基础数据。

2024-10-01 07:45:00 501

原创 嵌入式分析型数据库(DuckDB)

DuckDB是一款集轻量级、高性能于一体的嵌入式分析型数据库。在单机内存不断增大以及 SSD 存储逐渐普及的背景下,大部分数据处理工作可以在单机上完成,且很多 OLAP(在线分析处理)场景也能在单机上进行。DuckDB 就是为了满足这种在单机环境下进行高效数据分析的需求而诞生的。它是荷兰 CWI 数据库组的一个项目,学术气息浓厚,架构清晰,适合学习和研究。

2024-10-01 07:30:00 1006

原创 数据去重工具(Dedupe)

Dedupe主要用于数据去重和实体识别,可以帮助在构建知识图谱时处理数据中的重复信息,提高数据的质量和准确性。

2024-09-30 07:45:00 1021

原创 中文分词的技术发展

中文分词是将一个汉字序列切分成一个一个单独的词的过程。准确的分词是理解文本语义的基础。只有将句子正确地分割成词,才能进一步分析词语之间的关系、提取关键信息,从而准确把握文本的含义。例如,在信息检索中,只有对用户输入的查询语句进行准确分词,才能与数据库中的文档进行有效的匹配,提高检索的准确性。中文分词的质量直接影响翻译的效果。如果分词错误,可能会导致翻译结果出现偏差甚至错误。例如,“羽毛球拍卖完了”这句话,如果分词错误为“乒乓/球拍/卖/完了”,那么在翻译时就会出现严重的问题。

2024-09-30 07:30:00 1791

原创 实体关系抽取工具包(OpenNRE)

OpenNRE是一个用于关系抽取的开源工具包,能够从文本中自动抽取实体之间的关系,支持多种关系抽取模型和算法,方便用户进行知识图谱的关系构建。OpenNRE由清华大学刘知远老师及其团队开发,是自然语言处理领域中用于从文本中抽取实体之间关系的重要工具。其目的是为研究人员和开发者提供一个统一的框架,以便实现各种神经网络模型进行关系抽取,帮助构建知识图谱等需要实体关系信息的应用。

2024-09-29 07:45:00 651

原创 中文分词器(jcseg)

jcseg是基于 mmseg 算法的一个轻量级 Java 中文分词器,同时集成了关键字提取、关键短语提取、关键句子提取和文章自动摘要等功能。它提供了多种切分模式,包括简易模式、复杂模式、检测模式、检索模式、分隔符模式和 NLP 模式,以满足不同的应用场景需求。可以从官方网站或开源代码托管平台获取 jcseg 的 JAR 包或源代码。将 jcseg 添加到你的 Java 项目中。如果是使用 Maven 或 Gradle 等构建工具,可以在项目配置文件中添加相应的依赖。

2024-09-29 07:30:00 703

原创 中文分词工具包(pkuseg)

pkuseg是由北大开源的基于 Python 的中文分词工具包,由北京大学语言计算与机器学习研究组研制推出。不同于以往的通用中文分词工具,它致力于为不同领域的数据提供个性化的预训练模型,目前支持新闻领域、网络文本领域和混合领域的分词预训练模型,用户也可以使用全新的标注数据进行训练,以获得更高的分词准确率。

2024-09-28 07:45:00 735

原创 中文分词工具包(IKAnalyzer)

IKAnalyzer是一个开源的、基于 Java 语言开发的轻量级中文分词工具包。它采用了特有的“正向迭代最细粒度切分算法”,支持细粒度和智能分词两种切分模式,具有较高的分词速度和较小的内存占用,同时支持用户词典扩展定义。在 Maven 项目中添加相关依赖后,即可使用 IKAnalyzer 进行中文分词操作。作为一个基于 Java 语言开发的工具包,它可以很方便地集成到各种 Java 项目中,与其他的 Java 技术和框架进行配合使用。

2024-09-28 07:30:00 809

原创 中文分词库(sego)

sego是一个 Go 语言的中文分词库。词典用双数组 trie(double-array trie)实现,分词器算法为基于词频的最短路径加动态规划。支持普通和搜索引擎两种分词模式,支持用户词典和词性标注,可运行 jsonrpc 服务,分词速度较快。早期为 Go 语言开发者提供了一种高效的中文分词解决方案。它的出现满足了 Go 语言在中文自然语言处理方面对准确分词的需求,尤其是在处理大量中文文本数据时,其性能优势逐渐受到关注。

2024-09-27 07:45:00 729

原创 汉语处理包(HanLP)

HanLP是一个由模型与算法组成的 Java 汉语言处理包,由大快搜索主导并完全开源。它不仅提供中文分词功能,还具备索引全切分模式、用户自定义词典、兼容繁体中文、词性标注、命名实体识别、关键词提取、自动摘要等众多自然语言处理功能。需要先下载相关的模型文件,然后使用相应的 API 进行文本处理。例如,使用其提供的中文分词功能时,可以先初始化分词器,然后对文本进行分词操作。

2024-09-27 07:30:00 775

原创 jieba中文分词

名词相关:n:名词,表示人、事物、地点、抽象概念等的名称,例如“苹果”“学校”“友谊”等。nr:人名,如“张三”“李白”等。ns:地名,像“北京”“上海”“杭州”等。nt:机构团体,比如“联合国”“阿里巴巴公司”等。nz:其他专名,如特定的事件名称、品牌名称等,“五四运动”“华为”等。ng:名语素,名词性语素,是构成名词的语素成分。动词相关:v:动词,表示动作、行为、状态的变化等,例如“跑”“吃”“思考”等。vd:副动词,直接作状语的动词,兼具动词和副词的特点。vn。

2024-09-26 07:45:00 868

原创 开源办公套件(OnlyOffice)

OnlyOffice 是一个免费、开源、跨平台的办公套件,它提供了文本编辑器、表格工具和演示软件,支持共享文件实时协作编辑、修改痕迹记录查看以及制作可供填写的表格等高级功能。OnlyOffice 的用户界面模仿了微软 Office 365 功能区的设计风格,能让用户快速上手。OnlyOffice最先是在2009年推出了TeamLab社区,后来发布了自己的文档编辑软件。在2014年,将TeamLab Office更名为OnlyOffice,并开放了源代码。

2024-09-26 07:30:00 1292

原创 基于Web的PDF处理工具(Stirling PDF)

Stirling PDF:这是一个基于Web的PDF处理工具,可以在本地通过Docker托管。它提供了拆分、合并、转换、重新组织、添加图像、旋转、压缩等功能。

2024-09-25 07:45:00 1167

原创 分布式对象存储(Apache Ozone)

Apache Ozone是基于Hadoop的可扩展、冗余和分布式对象存储,适用于容器环境,如Kubernetes和YARN。Ozone支持多协议,包括S3和Hadoop文件系统API。

2024-09-25 07:30:00 1047

原创 开源办公套件(LibreOffice)

LibreOffice是一个非常流行的开源办公套件,它包括了文本文档、电子表格、演示文稿、绘图、数据库等组件。LibreOffice 支持多种操作系统,包括 Windows、GNU/Linux 和 macOS,并且提供了丰富的功能和良好的文件格式兼容性。它还支持多种语言,并且有一个活跃的社区,为用户提供支持和资源。LibreOffice 是微软 Office 的优秀替代品,对于个人和企业都是免费使用的。LibreOffice 起源于 OpenOffice.org。

2024-09-24 07:45:00 923

原创 开源办公套件(Apache OpenOffice)

Apache OpenOffice 是一个开源办公套件,包括文本文档、电子表格、演示文稿、绘图和数据库管理。它支持多种语言,并且可以在所有普通计算机上工作。Apache OpenOffice 同样是基于国际开放标准格式存储数据,并且可以读写其他常用办公软件包的文件。1985 年,StarDivision 公司发布了私有办公软件套装 StarOffice。StarOffice 包含了文字处理、电子表格、演示文稿等多种功能,是办公软件领域的早期产品之一。

2024-09-24 07:30:00 719

原创 网络存储(FreeNAS)

FreeNAS可以安装在几乎任何硬件上,将其转变为网络附加存储(NAS)设备。除了文件共享和快照外,FreeNAS还提供了一系列数据保护功能。FreeNAS 项目历史可追溯到 2005 年 10 月,由 Olivier Cochard-Labbé 基于 m0n0wall 嵌入式防火墙和 FreeBSD 6.0 开发。2010 年,FreeNAS 项目被 ixSystems 公司收购,但依然保持开源免费,并且因为有专业公司技术团队的全职维护,其版本迭代速度较快。

2024-09-23 07:45:00 1328

原创 PDF阅读和解析(MuPDF)

MuPDF:这是一个专注于提供快速、小巧且功能强大的PDF处理能力的开源PDF阅读器和解析库。它支持多种操作系统,提供了C API,便于其他编程语言的绑定。

2024-09-23 07:30:00 1083

原创 虚拟机管理(CloudStack)

CloudStack设计用于部署和管理大量虚拟机的开源软件,作为可扩展的基础设施即服务(IaaS)云计算平台。

2024-09-22 07:45:00 1117

原创 开源对象存储服务(MinIO)

MinIO:一个高性能的开源对象存储服务,兼容Amazon S3 API,适合存储大容量非结构化数据。它非常轻量级,易于与其他应用程序集成,如Kubernetes、etcd、Docker等。MinIO以其快速的读写速度(最高可达183GB/s读取和171GB/s写入)和简单的部署方式而闻名。MinIO 是一个基于 Apache License v2.0 开源协议的对象存储服务。

2024-09-22 07:30:00 898

原创 深度数据管理(IBM InfoSphere QualityStage)

IBM InfoSphere QualityStage可在内部部署或云中使用,为数据清理和管理提供了广泛而全面的方法。具有深度数据分析工具,能够帮助用户理解数据的内容、质量和结构;利用机器学习技术可以自动标记数据并识别潜在问题。提供 200 多个内置的数据质量规则,用于控制不良数据的接收,还可以将问题路由到合适的人进行处理。数据分类功能能够识别个人识别信息,有助于保护数据安全和消除重复记录。适合对数据安全性和质量要求较高的企业,如金融、政府等行业。

2024-09-21 07:45:00 1048

原创 数据质量解决方案(SAS Data Management)

SAS Data Management是一款行业领先的数据管理解决方案,建立在数据质量平台之上,能够帮助用户提高、整合数据质量。它提供了强大的数据集成、转换和清洗功能,可以处理各种复杂的数据质量问题。同时,SAS 具有良好的数据分析和报告功能,能够为用户提供详细的数据质量报告和分析结果,帮助用户更好地了解数据质量状况。适用于对数据分析和数据质量要求较高的企业,如医疗、科研等行业。

2024-09-21 07:30:00 1041

原创 数据分析平台(Alteryx)

Alteryx可以加速或自动化业务流程,并支持地理空间和预测解决方案。其平台有助于组织快速、高效地回答业务问题,可作为数字化转型或自动化计划的重要组成部分。在数据质量方面,Alteryx 提供了数据清洗、转换和验证的功能,能够帮助用户快速处理和优化数据。此外,它还具有直观的可视化界面,方便用户进行操作和分析。适用于需要快速处理和分析数据的企业,尤其是那些希望通过自动化流程提高数据处理效率的企业。例如,市场调研公司、电商企业等,可以使用 Alteryx 来处理大量的市场数据、销售数据等,以便及时做出决策。

2024-09-20 07:45:00 998

原创 数据质量工具(Informatica Data Quality)

Informatica Data Quality提供全面的数据质量解决方案,擅长数据标准化、验证、丰富、重复数据消除和整合。对于企业级的数据质量治理项目,它能够确保在整个组织内实现数据质量的统一管理和监控。具有基于角色的功能、异常管理、对问题的人工智能洞察、预构建的规则和加速器等功能,可帮助用户快速发现和解决数据质量问题。此外,还提供了针对云数据的版本,适用于将数据存储在 Microsoft Azure 和 AWS 等云平台的企业。

2024-09-20 07:30:00 1005

原创 数据质量工具(Talend Data Quality)

Talend Data Quality提供全面的数据质量评估、清洗和监控功能。能够检测和修复数据中的错误、不一致性和重复数据,确保数据的准确性和完整性。

2024-09-19 07:45:00 972

原创 分布式协调服务(ZooKeeper)

ZooKeeper 是一个开源的分布式协调服务,主要用于分布式系统中的配置管理、命名服务、分布式同步、集群管理等。以下是关于 ZooKeeper 的详细介绍:ZooKeeper 最初是由雅虎公司开发,后来成为 Apache 软件基金会的一个顶级项目。它的设计目标是为分布式应用提供一个高可靠、高性能、一致性的协调服务。ZooKeeper 是一个分布式的、开放源码的分布式应用程序协调服务,它可以在分布式系统中实现高效的配置管理、命名服务、分布式同步、集群管理等功能,为分布式应用提供了一致性的服务。

2024-09-19 07:30:00 378

原创 分布式流处理平台(Apache Kafka)

Apache Kafka:分布式流处理平台,可用于实时数据集成和流数据处理。支持高吞吐量的数据传输和处理,适用于实时数据分析和事件驱动架构。最初由LinkedIn开发并开源,于2011年开始投入使用,后来成为Apache软件基金会的一个顶级项目。其设计初衷是为了满足LinkedIn公司内部对大规模实时数据处理和传输的需求。

2024-09-18 07:45:00 1014

原创 数据集成平台(ETLCloud)

ETLCloud:一款国产的集成了ETL/ELT/CDC的全域数据集成平台,提供了广泛的应用及数据库链接器,能够满足对离线和实时数据集成的需求。

2024-09-18 07:30:00 1003

原创 分布式数据集成框架(Apache Gobblin)

Apache Gobblin:一套分布式数据集成框架,旨在简化大数据集成工作当中的各类常见任务,包括数据流与批量生态系统的提取、复制、组织与生命周期管理。主要用于大规模数据的抽取、转换和加载(ETL)。

2024-09-17 07:45:00 807

原创 数据集成框架(Apache Camel)

Apache Camel:一个开源框架,用于数据集成和企业应用集成,支持多种协议和数据格式,可以轻松地与现有的系统和应用程序集成。

2024-09-17 07:30:00 1273

原创 数据可视化解决方案(AntV)

AntV是蚂蚁金服全新一代数据可视化解决方案。需要一定的技术含量进行二次开发。它采用的 the grammar of graphics 语法,与其他可视化库相比有其独特之处,为用户提供了专业可靠、具有无限可能的数据可视化实践。

2024-09-16 07:45:00 1746

原创 数据可视化库(Pyecharts)

Pyecharts是当数据分析遇上 Python 语言时诞生的一个数据可视化库。Echarts 是一个由百度开源的数据可视化库,而 Pyecharts 以 Python 为基础,对 Echarts 进行了封装和扩展。特点:以其高度灵活的配置项,使用户可以轻松搭配出精美的图表。它结合了 Python 的强大数据处理能力和 Echarts 的优秀可视化效果,为 Python 开发者提供了便捷的数据可视化工具。

2024-09-16 07:30:00 842

原创 数据可视化分析平台(DataGear)

DataGear是开源免费的数据可视化分析平台,采用浏览器 / 服务器架构。功能特点:支持运行时接入多种数据源,包括常见的关系数据库以及 Elasticsearch、ClickHouse、Hive 等大数据引擎;支持创建多种格式的数据集,如 SQL、CSV、Excel、HTTP 接口、JSON 等,并可设置为动态的参数化数据集;内置丰富的图表类型,如折线图、柱状图、饼图、地图等,且支持自定义图表配置项和编写上传自定义图表插件;

2024-09-15 07:45:00 1301

原创 数据集成平台(Talend Open Studio)

Talend Open Studio是一个强大的数据集成平台,提供了丰富的功能和工具,用于设计、开发和管理数据集成流程。它支持多种数据源和数据格式,具有可视化的设计界面,方便用户进行数据转换和集成操作。此外,Talend Open Studio 还提供了数据质量检查、数据清洗等功能,帮助用户确保数据的准确性和完整性。2006 年推出了 Talend Open Studio 的第一个版本。

2024-09-15 07:30:00 1014

原创 开源数据可视化平台的选择

数据可视化平台可以将复杂的数据以图表、图形等直观的形式展现出来,使数据的结构、趋势和关系一目了然。例如,通过柱状图可以清晰地比较不同类别数据的大小;折线图则能直观地反映数据随时间的变化趋势。帮助非专业数据分析师的用户,如企业管理者、业务人员等,快速理解数据的含义,无需深入了解数据的底层结构和复杂的统计分析方法。借助可视化工具的交互功能,用户可以动态地探索数据,从不同角度观察数据的分布和变化。例如,通过缩放、筛选和钻取等操作,深入分析特定时间段或特定数据子集的趋势和模式。

2024-09-14 08:58:50 897

原创 系统克隆工具(Clonezilla)

Clonezilla是一个开源的系统克隆工具,它可以对整个系统或单个分区进行克隆。由台湾的NCHC自由软件实验室开发。Clonezilla Live:适用于单台计算机,可以将存储介质或单个分区镜像到多种类型的存储位置,包括SSH服务器、Samba网络共享等。它还支持直接将一个存储介质上的数据克隆到另一个存储介质上。Clonezilla服务器版(SE):利用多播技术,可以同时克隆多台计算机,这一功能由UDPcast工具支持。

2024-09-14 07:45:00 1975

原创 Linux 系统备份程序(TimeShift)

TimeShift是Linux 系统备份程序,类似于 Windows 中的系统还原和 macOS 中的 Time Machine,通过定期获取文件系统的增量快照,可将系统恢复到以前的状态,提供 rsync 模式和 btrfs 模式。Timeshift 允许用户创建系统快照,以便在出现问题时能够恢复到之前的状态。Timeshift 支持使用 Rsync 或 BTRFS 两种方式来创建快照,提供了类似于 Windows 系统中的系统还原功能和 macOS 中的时间机器工具。

2024-09-14 07:30:00 887

原创 数据集成框架(Apache InLong)

Apache InLong(应龙):一站式的海量数据集成框架,提供自动、安全、可靠和高性能的数据传输能力,方便业务构建基于流式的数据分析、建模和应用。InLong 能够方便业务快速构建基于流式的数据分析、建模和应用,广泛应用于广告、支付、社交、游戏、人工智能等各个行业领域。InLong 项目最初由腾讯大数据团队捐献到 Apache 孵化器,并于 2022 年 6 月正式毕业成为 Apache 顶级项目。

2024-09-13 07:45:00 957

政府采购品目分类目录 财库〔2022〕31号

政府采购品目分类目录主要包括货物、工程和服务三大类,具体如下: 货物类品目。这包括土地、建筑物、一般设备、办公消耗用品、建筑装饰材料、物资、专用材料、专用设备、交通工具等。新修订的货物类品目共有8个门类,如房屋和构筑物、设备、文物和陈列品、图书和档案、家具和用具、特种动植物、物资、无形资产等。此外,还包括通用设备、专用设备、图书和档案、家具用具等20个二级分类。 工程类品目。这包括建筑物施工、构筑物施工、工程准备、预制构件组装和装配、专业施工、建筑安装、装修工程、修缮工程等10个二级分类。 服务类品目。这包括信息技术服务、租赁服务(不带操作员)、维修和保养服务、会议和会展服务、商务服务、专业技术服务、工程咨询管理服务、公共设施管理服务、教育服务、医疗卫生和社会服务等24个二级分类。

2024-04-09

200个常见弱密码SQL脚本

弱密码(Weak passwords)即容易破译的密码,多为简单的数字组合、账号相同的数字组合、键盘上的临近键或常见姓名,例如“123456”、“abc123”、“Michael”等 据统计,网民常用的“弱密码”主要包括简单数字组合、顺序字符组合、临近字符组合以及特殊含义组合等四大类别。而从中国版“弱密码”榜单来看,国内网民更习惯设置6位字符密码,TOP25中竟有18个是6位字符,所占比例高达72%。此外,“a1b2c3”和“p@ssword”这类组合型密码看似复杂,其实也在黑客重点关注的密码列表中。

2024-04-09

ISO 4217:2015 International currency 国际货币SQL脚本

ISO 4217:2015 货币的表示代码 Codes for the representation of currencies ISO货币代码是代表各种货币的三个字母的字母代码货币全世界都在使用。当他们成对地组合在一起时,就构成了符号和符号交叉费率 用于货币交易。 每个特定于国家的三字母字母代码也有相应的三位数字代码。这些代码由国际标准化组织(ISO),一个非政府组织,为制造业、商业、技术和通信提供标准。 ISO货币代码是三个字母的字母代码,代表世界各地使用的各种货币。 国际标准化组织标准委员会在1978年建立了标准货币代码。 ISO货币代码指定外汇报价中的基础货币和报价货币。 国际标准化组织还指定了三个字母的货币代码的数字等价物。

2024-04-09

ISO 3166 Country code 国别代码 SQL文件

ISO 3166 是国际标准化组织(ISO)针对国家、属地、具有特殊地理意义的地区、以及其子行政区(如:省或州)名称定义的国际标准代码。该标准的官方正式名称为“代表国家及其子行政区名称的代码”。 ISO 3166 标准由 ISO 3166 Maintenance Agency (ISO 3166/MA) 维护,该机构位于瑞士日内瓦ISO总部。其前身为位于德国柏林的德国标准化学会(Deutsches Institut für Normung,缩写:DIN)。

2024-04-09

2024年度工作日SQL文件 1:正常工作日 2:调换工作日 3:法定假日 4:调休假日

适用于中华人民共和国。经国务院批准,现将2024年元旦、春节、清明节、劳动节、端午节、中秋节和国庆节放假调休日期的具体安排通知如下。 一、元旦:1月1日放假,与周末连休。 二、春节:2月10日至17日放假调休,共8天。2月4日(星期日)、2月18日(星期日)上班。鼓励各单位结合带薪年休假等制度落实,安排职工在除夕(2月9日)休息。 三、清明节:4月4日至6日放假调休,共3天。4月7日(星期日)上班。 四、劳动节:5月1日至5日放假调休,共5天。4月28日(星期日)、5月11日(星期六)上班。 五、端午节:6月10日放假,与周末连休。 六、中秋节:9月15日至17日放假调休,共3天。9月14日(星期六)上班。 七、国庆节:10月1日至7日放假调休,共7天。9月29日(星期日)、10月12日(星期六)上班。

2024-04-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除