- 博客(0)
- 资源 (19)
- 收藏
- 关注
基于模糊处理的中文文本关键词提取算法
基于模糊处理的中文文本关键词提取算法
原始文档
第一层 分词与词性标注 文本预处理
↓ ↓
第二层 线性加权 → 单词信息表
↓ |
第三层 组合词生成 组合词信息表 ↓
↓ ↓
第四层 过虑与合并(规则库)
↓
输出层 关键词
2010-11-09
一种有效的多关键词词频统计方法.pdf
1 算法描述
1.1 基于BF 的方法
模式匹配中最简单、直观的算法是BF(Brute Force)算法。
设有主串S 和模式串T,分别利用计数指针i 和j 指示主串S
和模式串T 中当前正待比较的字符位置。该算法的基本思想
是:从主串S 的第pos 个字符起和模式的第一个字符比较,
若相等,则继续逐个比较后续字符;否则从主串的下一个字
符起重新和模式的字符比较。依次类推,直至模式T 中的每
个字符依次和主串S 中的一个连续的字符序列相等,则称匹
配成功,函数值为与模式T 中第一个字符相等的字符在主串
S 中的序号,否则称匹配不成功,函数值为零。BF 算法的类
C 语言描述如下:
int Matching_BF( String S, String T, int pos ){
//返回子串T 在主串S 中第pos 个字符之后的位置。若不存在,
//则函数值为0。
//其中,T 非空,1≤pos≤StrLength(S)。
i = pos; j = 1;
while ( i <= S[0] && j <= T[0] ) {
if ( S[i] = = T[i] ) { ++ i; ++ j; } //继续比较后继字符
else { i = i – j + 2; j = 1; } //指针后退重新开始匹配
}
if ( j > T[0] ) return i – T[0];
else return 0; }
依据BF 的算法思想,进行多关键词的词频统计。对待
匹配的关键词集合,采用逐词匹配处理的技术。每统计一个
关键词的频率,就需将待处理的文档扫描一遍,并采用BF
2010-11-09
基于新的关键词提取方法的快速文本分类系统
!) 文档中文信息的切词
1) 文档中文信息的切词
1.1新型机器词典的建立
1.2动词词典、虚词词典和停用词词典的建立依据
1.3基于“小容量”词库的切分技术
1.4三种切分的比对及相关规则的建立
2) 进一步过滤关键词:CD)ED 算法及其改进
3) kNN(k-Nearest-Neighbor)分类算法
2010-11-09
基于相邻词的中文关键词自动抽取
请先下载CAJ阅读器
对于单编文档d自动提取关键词的算法如下所述;
1 使用基于词典的正向最小分词算法对文档进行分词。
2统计出文档d中每个词t在d中的TF,并将每个词在d中的权重Wt.....
2010-11-09
可应用于互联网的自学习中文关键词抽取算法
请先下载CAJ阅读器
只有算法介绍
1 使用停用词表排除常用虚词及无用实词;
2 根据文档长度确定低频阈词,并排除在文档中出现次数据低于阈值的词;
3 根据词在文档中出现的次数与关键词知识库的信息计算每个词的词频;
。。。。。。
2010-11-09
经典用户管理数据库结构.rar
经典用户管理数据库结构
=========系统设置==================
=========用户资料==================
=========各种积分==========
=======权限控制===================
在这里实际上就已经实现了纵横交错的几种权限控制方式,可以单用户+角色,组+角色,类型+角色,但是后面会出现一个问题,就是如果一个系统三种方式同时启用了,那么权限控制的优先顺序应该如何做,如果不排顺序,那就叠加也行,只是担心这样下来会把人脑壳弄昏了(其实就现在看这个表我想很多人以及昏了),起不到简单易用的效果。理论上,随便启动一种,都可以满足一般的系统。
==========安全===================
===========朋友===================
============收藏===================
=============短消息=================
2010-06-26
HTML5 参考手册
HTML 5 参考手册
W3C 在 1 月 22 日发布了最新的 HTML 5 工作草案。HTML 5 工作组包括 AOL, Apple, Google, IBM, Microsoft, Mozilla, Nokia, Opera 以及数百个其他的开发商。HTML 5 中的一些新特性:嵌入音频、视频、图片的函数、客户端数据存储,以及交互式文档。其他特性包括新的页面元素,比如 <header>, <section>, <footer>, 以及 <figure>。
通过制定如何处理所有 HTML 元素以及如何从错误中恢复的精确规则,HTML 5 改进了互操作性,并减少了开发成本。
按字母顺序排列
4: 指示在 HTML 4.01 中是否定义了该元素
5: 指示在 HTML 5 中是否定义了该元素
标签 描述 4 5
<!--...--> 定义注释。 4 5
<!DOCTYPE> 定义文档类型。 4 5
<a> 定义超链接。 4 5
<abbr> 定义缩写。 4 5
<acronym> 不支持。定义首字母缩写。 4
<address> 定义地址元素。 4 5
<applet> 不支持。定义 applet。 4
<area> 定义图像映射中的区域。 4 5
<article> 定义 article。 5
<aside> 定义页面内容之外的内容。 5
<audio> 定义声音内容。 5
<b> 定义粗体文本。 4 5
<base> 定义页面中所有链接的基准 URL。 4 5
<basefont> 不支持。请使用 CSS 代替。 4
<bdo> 定义文本显示的方向。 4 5
<big> 不支持。定义大号文本。 4
<blockquote> 定义长的引用。 4 5
<body> 定义 body 元素。 4 5
<br> 插入换行符。 4 5
<button> 定义按钮。 4 5
<canvas> 定义图形。 5
<caption> 定义表格标题。 4 5
<center> 不支持。定义居中的文本。 4
<cite> 定义引用。 4 5
<code> 定义计算机代码文本。 4 5
<col> 定义表格列的属性。 4 5
<colgroup> 定义表格列的分组。 4 5
<command> 定义命令按钮。 5
<datagrid> 定义树列表 (tree-list) 中的数据。 5
<datalist> 定义下拉列表。 5
<datatemplate> 定义数据模板。 5
<dd> 定义定义的描述。 4 5
<del> 定义删除文本。 4 5
<details> 定义元素的细节。 5
<dialog> 定义对话(会话)。 5
<dir> 不支持。定义目录列表。 4
<div> 定义文档中的一个部分。 4 5
<dfn> 定义定义项目。 4 5
<dl> 定义定义列表。 4 5
<dt> 定义定义的项目。 4 5
<em> 定义强调文本。 4 5
<embed> 定义外部交互内容或插件。 5
<event-source> 为服务器发送的事件定义目标。 5
<fieldset> 定义 fieldset。 4 5
<figure> 定义媒介内容的分组,以及它们的标题。 5
<font> 不赞成。定义文本的字体、尺寸和颜色。 4
<footer> 定义 section 或 page 的页脚。 5
<form> 定义表单。 4 5
<frame> 不支持。定义子窗口(框架)。 4
<frameset> 不支持。定义框架的集。 4
<h1> to <h6> 定义标题 1 到标题 6。 4 5
<head> 定义关于文档的信息。 4 5
<header> 定义 section 或 page 的页眉。 5
<hr> 定义水平线。 4 5
<html> 定义 html 文档。 4 5
<i> 定义斜体文本。 4 5
<iframe> 定义行内的子窗口(框架)。 4 5
<img> 定义图像。 4 5
<input> 定义输入域。 4 5
<ins> 定义插入文本。 4 5
<isindex> 不支持。定义单行的输入域。 4
<kbd> 定义键盘文本。 4 5
<label> 定义表单控件的标注。 4 5
<legend> 定义 fieldset 中的标题。 4 5
<li> 定义列表的项目。 4 5
<link> 定义资源引用。 4 5
<m> 定义有记号的文本。 5
<map> 定义图像映射。 4 5
<menu> 定义菜单列表。 4 5
<meta> 定义元信息。 4 5
<meter> 定义预定义范围内的度量。 5
<nav> 定义导航链接。 5
<nest> 定义数据模板中的嵌套点。 5
<noframes> 不支持。定义 noframe 部分。 4
<noscript> 不支持。定义 noscript 部分。 4
<object> 定义嵌入对象。 4 5
<ol> 定义有序列表。 4 5
<optgroup> 定义选项组。 4 5
<option> 定义下拉列表中的选项。 4 5
<output> 定义输出的一些类型。 5
<p> 定义段落。 4 5
<param> 为对象定义参数。 4 5
<pre> 定义预格式化文本。 4 5
<progress> 定义任何类型的任务的进度。 5
<q> 定义短的引用。 4 5
<rule> 为升级模板定义规则。 5
<s> 不支持。定义加删除线的文本。 4
<samp> 定义样本计算机代码。 4 5
<script> 定义脚本。 4 5
<section> 定义 section。 5
<select> 定义可选列表。 4 5
<small> 不支持。定义小号文本。 4 5
<source> 定义媒介源。 5
<span> 定义文档中的 section。 4 5
<strike> 不支持。定义加删除线的文本。 4
<strong> 定义强调文本。 4 5
<style> 定义样式定义。 4 5
<sub> 定义上标文本。 4 5
<sup> 定义下标文本。 4 5
<table> 定义表格。 4 5
<tbody> 定义表格的主体。 4 5
<td> 定义表格单元。 4 5
<textarea> 定义 textarea。 4 5
<tfoot> 定义表格的脚注。 4 5
<th> 定义表头。 4 5
<thead> 定义表头。 4 5
<time> 定义日期/时间。 5
<title> 定义文档的标题。 4 5
<tr> 定义表格行。 4 5
<tt> 不支持。定义打字机文本。 4
<u> 不支持。定义下划线文本。 4
<ul> 定义无序列表。 4 5
<var> 定义变量。 4 5
<video> 定义视频。 5
<xmp> 不支持。定义预格式文本。 4 5
2010-06-26
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人