自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 基于规则的海事自由文本信息抽取方法研究

基于规则的海事自由文本信息抽取方法研究 目录基于规则的海事自由文本信息抽取方法研究一.前言二.自由文本信息抽取方法2.1 基本组成结构2.2 评价标准 一.前言 海事事故数据作为评估现有安全水平和降低风险措施有效性的基础,在进行风险分析时必不可少。目前我国各海事部门大都存在各自船舶数据库,但在各部门数据库相对独立,不同部门的数据库甚至同一部门的不同数据库都存在着数据不互通的问题 ,并且各海事部门数据库大都未对外开放,无法直接得到结构化的事故数据,只能在Web网页中获取得到事故相关的文本信息。 二.自由文本信

2021-07-21 16:12:22 675 1

原创 基于 LDA 模型的文本分割

基于 LDA 模型的文本分割 提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录基于 LDA 模型的文本分割前言二、LDA模型1.LDA模型介绍2.Gibbs 抽样3.分割策略总结学习内容:学习时间:学习产出: 前言 三大分割方法: 1.假设相同、相似或语义相关的词汇倾向于出现在同一文本片段内。[1-2] 2.认为特定的语言现象 ,比如提示短语、停顿标记、韵律特征、指代、句法及词汇的形态同化等与片段首尾隐含某种必然联系。[3-4] 3.一个合适的概率统计模型可以给文本片段边界的

2021-07-17 16:45:15 806

原创 Dictionary-based methods for information extraction

基于字典序方法的信息提取 本质:分类问题 通过熵(entropy)来量化单词信息在全文中的含义 Kolmogorov 复杂性 定义:Kolmogorov复杂度可以定义为任何数学对象,但为简单起见,本文仅限于字符串。我们必须首先为字符串指定一种描述语言。这种描述语言可以基于任何计算机编程语言,如Lisp、Pascal或Java。如果P是一个输出字符串x的程序,那么P是x的描述。描述的长度就是P作为字符串的长度,乘以一个字符的位数 我们也可以为图灵机选择一个编码,其中编码是一个函数,它与每个图灵机M.

2021-07-09 18:47:10 353

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除