自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (13)
  • 收藏
  • 关注

原创 语义处理工具:Jaccard相似度算法优化

但在实际应用中发现,这篇文章中提到的算法还是有点问题,这次进行了一些优化,以事例进行算法说明。两个句子句子A:想买笔记本,请问苹果电脑的价格句子B:问下联想笔记本多少钱。

2024-09-30 09:13:18 710

原创 JAVA:文字写入图片、图片插入图片

在实际应用中,需要通过Java将目标信息写在图片上,生成小卡片。

2024-08-31 18:58:54 349 1

原创 Java:基于TextRank算法的自动摘要(自动生成事件摘要)

所谓自动摘要,就是从文章中自动抽取关键句。TextRank 是一种用于文本摘要的自然语言处理算法。

2024-08-01 15:05:49 648

原创 JAVA:Word2Vec的使用

Word2Vec是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K 维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2vec输出的词向量一般为50维或100维,这种向量被表示成这个样子[0.11212,0.116545,0.878789,0.5644659,……]。这种词向量可以被用来做很多 NLP 相关的工作,比如聚类、找同义词、词性分析、计算文档相似度计算等等。

2024-06-28 19:39:46 1336

原创 Java:使用Opencv进行大图找小图

OpenCV是一个开源计算机视觉库,提供了丰富的图像处理和计算机规觉算法。它支持多种编程语言,包括Java本文将介绍如何在Java中使用OpenCV进行图像处理和计算机视觉任务。

2024-06-01 17:57:46 665

原创 墨刀原型工具-小白入门篇

墨刀是一款在线原型设计与协同工具,借助墨刀,产品经理、设计师、开发、销售、运营及创业者等用户群体,能够搭建为产品原型,演示项目效果。墨刀同时也是协作平台,项目成员可以协作编辑、审阅 ,不管是产品想法展示,还是向客户收集产品反馈,向投资人进行Demo展示,或是在团队内部协作沟通、项目管理。

2024-05-01 19:19:41 3831

原创 CasaOS: 一款基于 Docker 生态的开源云系统,打造属于你的智能家庭操作系统

CasaOS 不仅是一个强大的家庭自动化工具,更是一种全新的智能家居体验。它能够帮助用户轻松搭建起自己的家庭云环境,实现文件共享、媒体播放、智能家居控制等多种功能。无论是对于普通家庭用户还是技术爱好者,CasaOS都能为你带来全新的家庭云生活体验。

2024-03-29 18:52:59 5892

原创 Java:PDF图片抽取的两种方法

PDF中的图片分为两种,一种是传统意义上的图片,可以直接进行抽取;另一种是各种图形的组合,这种图片不能够直接进行抽取。

2024-03-01 17:01:15 1948 2

原创 OpenCV从入门到精通

OpenCV是一个开源计算机视觉库,提供了丰富的图像处理和计算机规觉算法。它支持多种编程语言,包括Java本文将介绍如何在Java中使用OpenCV进行图像处理和计算机视觉任务。

2024-01-31 19:22:58 1192

原创 Spring boot:3.X + Security OAuth2 自定义登录页面、登出后跳转到登录页

本文描述了基于 Spring Oauth2 的 code 模式,实现登陆同时授权、自定义登录界面、登出页面的功能。在spring boot工程的application.yml配置文件中登录页面需要符合thymeleaf格式,不符合格式的不支持,在resources 目录下新建singleSign目录,在此目录下新建login.html(文件名不能乱命名,要跟下面的Controller、WebSecurity 相对应) 文件如下:4.登陆界面Controller5.WebSecurity 配置

2023-12-29 18:13:07 2520 1

原创 单点登录平台设计

指定客户端支持的grant_type,可选值包括authorization_code,urn:ietf:params:oauth:grant-type:device_code,refresh_token, urn:ietf:params:oauth:grant-type:jwt-bearer,client_credentials, 若支持多个grant_type用逗号(,)分隔,如: "authorization_code,refresh_token".认证支持的方式,多个由逗号分隔;

2023-11-30 14:07:04 380

原创 Java:视频按帧进行截图

主要介绍了Java获取视频时长,并按照时间或者帧进行截图,希望对大家的学习有所帮助!

2023-10-31 15:49:14 792

原创 用户画像浅析

用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型。

2023-09-28 15:00:02 238

原创 Linux:Jupyterhub多用户远程登录安装、使用经验

一般安装都是参考官方最新版安装文档。

2023-08-31 15:33:11 3947 2

原创 开源中文分词Ansj的简单使用

​ANSJ是由孙健(ansjsun)开源的一个中文分词器,为ICTLAS的Java版本,也采用了Bigram + HMM分词模型:在Bigram分词的基础上,识别未登录词,以提高分词准确度。

2023-07-31 19:25:47 3189

原创 JAVA:POI设置EXCEL单元格格式

本文将介绍POI Excel for Java的格式设置基本用法,包括:单元格样式设置、值设置(文本、小数、百分比、货币、日期、科学计数法和中文大写等)。

2023-06-30 18:13:28 13335

原创 国内主流AI大模型盘点

今年年初,轰动科技圈的大事就是ChatGPT的面世,它的到来打响了AI智能时代的第一枪,同时展开了一场别开生面的智能科技革命。随着ChatGPT迅速走红,国内各大企业纷纷发力认知大模型领域。经过一段时间的酝酿,国内的AI领域也开启了“内卷”模式,各种大模型纷纷出现在大众眼前,包括科大讯飞、百度、阿里巴巴、360等企业,快速点燃国内科技圈的热情。

2023-05-31 15:33:25 7377

原创 Linux服务器Anaconda版本安装JupyterLab

在Linux服务器上安装JupyterLab并可在远程访问!

2023-04-23 15:46:32 1706 1

原创 HBase使用教程

HBase常用的查看数据方式有scan和get,get是一种特殊的scan,get是scan的startRow和endRow等于同一个值的特殊情况。HBase的RowKey 是按照B+树的形式存放的,所以查找一个具体的RowKey 速度是非常快的,所以查询数据的时候一般都会设置scan的startRow和endRow,这样可以缩小查找的范围,所以RowKey 的设计在HBase里面是极为重要的。

2023-03-31 19:08:25 1355

原创 ChatGPT到底是个啥?简析ChatGPT!

ChatGPT (Chat Generative Pre-trained Transformer ) 是由OpenAI开发的一个人工智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架构的大型语言模型,并通过大量文本数据的强化学习训练,可以生成高质量的文本对话。它的训练数据来自互联网上的大量文本,因此它能够回答各种各样的问题,以及生成各种类型的文本,例如说明、文章和对话。

2023-03-01 16:10:15 7329

原创 蒙特卡洛算法详解

蒙特卡洛方法也称为 计算机随机模拟方法,它源于世界著名的赌城——摩纳哥的Monte Carlo(蒙特卡洛)。它是基于对大量事件的统计结果来实现一些确定性问题的计算。其实质就是将问题转化为一个概率问题,并用计算机模拟产生一堆随机数,再对随机数进行统计工作。

2023-01-31 18:51:05 9678

原创 关键词的提取方法

为了方便用户快速了解文章的中心主题,会抽取文章的一些中心词来表达文章的中心思想。关键词抽取就是通过一定的方法抽取出能表达文章的中心主题的一系列方法。

2022-12-30 17:50:58 6945

原创 Linux服务器上Neo4j的安装、迁移

neo4j版本:neo4j-community-3.5.6。

2022-12-02 18:20:36 5505

原创 元数据简析:定义及管理

元数据是用来描述数据的数据。它可理解为比一般意义的数据范畴更加广泛的数据,不再仅仅表示数据的类型、名称、值等信息,它可以进一步提供数据的上下文描述信息,比如数据的所属域、取值范围、数据间的关系、业务规则,甚至是数据的来源。元数据可以帮助DW管理员和DW开发人员非常方便地找到他们所关心的数据。元数据相当于数据的DNA,它可以告诉你,有用的数据在哪里,能提供一份数据结构定义和元素的详细示意图,数据来龙去脉、关系,使应用开发过程更有效,提供数据的参照性、引用性、血缘分析、影响分析、变化分析……

2022-11-01 17:54:20 1330

原创 Java:使用Itext读取pdf文本

本文以Java示例展示使用Itext读取pdf文本的方法。

2022-09-30 18:27:48 6588 1

原创 Ffmpeg入门级教程(Java代码开发)

FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec,为了保证高可移植性和编解码质量,libavcodec里很多code都是从头开发的。FFmpeg在Linux平台下开发,但它同样也可以在其它操作系统环境中编译运行,包括Windows、Mac OS X等。......

2022-08-31 17:47:50 13593 3

原创 JAVA:代码实现zip压缩

主要介绍了Java实现把文件及文件夹压缩成zip。文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考价值,需要的朋友可以参考下。

2022-07-29 18:12:48 18984 3

原创 Java:Excel写入“合并单元格“

本文以Java示例展示Excel中的写入“合并单元格”的方法。

2022-06-30 20:05:43 3017

原创 Java csv文件的读取和写入,拒绝中文乱码

实际工作中,很多数据都存在csv文件中,使用 java语言开发的时候,有的时候需要读取文件,或者将csv文件导入到数据库中,commons-csv作为三方类库,简化了读取操作!

2022-06-03 23:29:40 5704

原创 Java读取Excel中的合并单元格

本文以Java示例展示读取Excel中的合并单元格的方法。1、Maven仓库下载导入在pom.xml中配置maven路径,指定依赖,如下:<dependency> <groupId>org.apache.poi</groupId> <artifactId>poi</artifactId> <version>4.1.1</version></dependency>&lt.

2022-05-03 17:27:20 6245

原创 Java的PDF分页操作:分页读取、分页拆分

本文以Java示例展示读取PDF分页读取、分页拆分的方法。

2022-04-02 17:17:49 5804

原创 Java 读取PDF中表格的工具

目录1、方法1:Spire.PDF1.1 Maven仓库下载导入1.2 读取PDF中的表格1.2.1 代码1.2.2 表格内容​1.2.3 读取结果2、方法2:Tabula2.1 Maven仓库下载导入2.2 读取PDF中的表格2.2.1 代码2.2.2 表格内容2.2.3 抽取结果3、终极大杀器:pdfbox3.1 Maven仓库下载导入3.2 读取PDF中的表格3.2.1 代码3.2.2 表格内容3.2.3 抽取结果4、总结.

2022-02-28 19:18:42 13765 16

原创 深入浅出理解决策树算法

1.定义决策树(decision tree)是一种机器学习的方法。决策树的生成算法有ID3, C4.5等。决策树是一种树形结构,其每个非叶节点表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性,并按照其值选择输出分支,直到到达叶子节点,将叶子节点存放的类别作为决策结果。总结来说:决策树模型核心是下面几部分:结点和有向边组成 结点有内部结点和叶结点俩种类型 内部结点表示一

2022-02-07 18:15:04 838

原创 RabbitMQ的Java调用实战

本文将介绍RabbitMQ的Java调用代码!

2021-12-31 15:40:55 633

原创 Linux CentOS 7+ 下RabbitMQ的安装与配置

1. 系统环境1.1.系统版本CentOS Linux release:7.9.2009 (Core)64位 RabbitMQ:3.9.8-1.el7 Erlang:23.2 JDK:1.8+1.2.关闭防火墙和Selinux Linux的防火墙是新手的噩梦,很多情况会出现能ping通,但是访问不了Web页面,所以开始就干掉它:systemctl stop firewalld.service2.依赖环境Erlang的下载和安装由于RabbitMQ依赖Erl...

2021-10-29 15:49:53 997

原创 浅析消息队列之RabbitMQ

市面上的消息队列产品有很多,比如RabbitMQ、Kafka、 ZeroMQ,以及阿里巴巴的RocketMQ等 ,这块知名的产品就有十几种,就我自己的使用经验和兴趣,本文只打算谈谈RabbitMQ ,在此之前先看下消息队列的相关概念。1.消息队列1.1.定义消息(Message)是指在应用间传送的数据。消息可以非常简单,比如只包含文本字符串,也可以更复杂,可能包含嵌入对象。消息队列(Message Queue,MQ)是一种应用间的通信方式,消息发送后可以立即返回,由消息系统来确保消息的可靠传

2021-10-28 17:39:40 1074

原创 深入浅出KNN算法及其Java实现

1.KNN算法可以说,KNN是最简单的分类算法之一,也是最常用的分类算法之一,KNN算法是有监督学习中的分类算法。1.1.算法简述KNN的全称是K Nearest Neighbors,意思是K个最近的邻居,从这个名字我们就能看出:K的取值肯定是至关重要的。KNN的原理就是当预测一个新的值x的时候,根据它距离最近的K个点是什么类别来判断x属于哪个类别。听起来有点绕,还是举例说明:图中绿色的点就是我们要预测的那个点,假设K=3。那么KNN算法就会找到与它距离最近的三个点(这里用圆圈

2021-09-30 18:59:19 1107 1

原创 ElasticSearch:Aggregation聚合查询的入门与进阶

目录桶(Buckets)指标(Metrics)将两者结合起来——聚合常见的聚合查询聚合查询的使用1、简单的词频统计2、数据按时间划分3、数据按某个字段进行聚合后,再按时间排序为了掌握聚合,要先了解两个主要概念:Buckets(桶):满足某个条件的文档集合。Metrics(指标):为某个桶中的文档计算得到的统计信息。就是这样!每个聚合只是简单地由一个或者多个桶,零个或者多个指标组合而成。可以将它粗略地转换为SQL:SELECT COUNT(field) F

2021-08-31 20:01:34 8013 4

原创 语义处理工具:语义版Jaccard相似度

目录1、原生态Jaccard1.1定义1.2引申-Jaccard距离1.3应用2、语义版Jaccard2.1诞生2.2公式2.3示例2.3.1分子(即:语义相似性部分)如何计算:2.3.2分母如何计算2.3.3阈值参数调节方法2.4结语在做自然语言处理的过程中,文本相似在有很重要的应用,我们经常会遇到需要找出相似语句的场景,这时候就需要把类似的句子归到一起,这里面就涉及到句子相似度计算的问题。本节介绍 基于Jaccard相似度来进行语义相似度计算。...

2021-07-30 19:19:27 2331

原创 关于杂质过滤的一点研究

1、问题描述通过爬虫采集的网上内容中包含大量的无用信息(杂质),需要通过计算机自动过滤这些无用杂质,保留真正有用的内容,过滤本身是一个类别判断即分类的过程。

2021-05-28 17:20:52 460 1

win10 64位安装ffmpeg的免安装ZIP包

最新版请到ffmpeg官网https://ffmpeg.org/download.html 直接下载安装包,本文件包是一个ZIP包,解压直接可用,亲测。解压完成后,别忘记配置环境变量。 FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec,为了保证高可移植性和编解码质量,libavcodec里很多code都是从头开发的。 FFmpeg在Linux平台下开发,但它同样也可以在其它操作系统环境中编译运行,包括Windows、Mac OS X等。这个项目最早由Fabrice Bellard发起,2004年至2015年间由Michael Niedermayer主要负责维护。许多FFmpeg的开发人员都来自MPlayer项目,而且当前FFmpeg也是放在MPlayer项目组的服务器上。项目的名称来自MPEG视频编码标准,前面的"FF"代表"Fast Forward"。FFmpeg编码库可以使用GPU加速。

2022-08-31

最全全国各省市区行政区划

全国各省市区行政区划,精确到村镇街道

2022-07-01

上海街道/镇行政区划-2021

上海街道/镇行政区划

2022-07-01

IT行业词库-nlp/自然语言处理

IT行业-计算机行业-互联网行业词库-nlp/自然语言处理

2022-02-15

法律行业词库-nlp/自然语言处理

行业词库-nlp/自然语言处理

2022-02-15

医药行业词库-nlp/自然语言处理

医药行业词库-nlp/自然语言处理

2022-02-15

旅游行业词库-nlp/自然语言处理

旅游行业词库-nlp/自然语言处理

2022-02-15

体育行业词库-nlp/自然语言处理

体育行业词库-nlp/自然语言处理

2022-02-15

奢侈品行业词库-nlp/自然语言处理

奢侈品行业词库-nlp/自然语言处理

2022-02-15

财经行业词库-nlp/自然语言处理

财经行业词库-nlp/自然语言处理

2022-02-15

服装行业词库-nlp/自然语言处理

服装行业词库-nlp/自然语言处理

2022-02-15

汽车行业词库-nlp/自然语言处理

汽车行业词库-nlp/自然语言处理

2022-02-15

美妆行业词库,NLP分词专用

NLP、自然语言处理

2022-02-15

新浪微博应用 测试粉丝质量 源代码

新浪微博应用 测试粉丝质量 源代码

2016-04-27

Design_and_Implementation_of_WordNet中文版说明书.pdf

Design_and_Implementation_of_WordNet中文版说明书.pdf

2015-07-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除