中文分词的原理——正、逆向最大长度匹配法、处理未登录字符串(JAVA)

中文分词的原理——正、逆向最大长度匹配法、处理未登录字符串(JAVA) 中文分词就是对中文断句,这样能消除文字的部分歧义。除了基本的分词功能,为了消除歧义还可以进行更多的加工。中文分词可以分成如下几个子任务: 分词:把输入的标题或者文本内容等分成词。 词性标注(POS):给分出来的词标注上名词...

2019-02-26 14:36:29

阅读数 65

评论数 0

文本分类入门(五)——关于开方检验和信息增益特征选择算法

文本分类入门(五)——关于开方检验和信息增益特征选择算法 1.开方检验 ​ 前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特...

2019-01-31 12:45:14

阅读数 108

评论数 0

文本分类入门(四)——中英文文本分类的异同

文本分类入门(四)——中英文文本分类的异同 ​ 从文本分类系统的处理流程来看,无论待分类的文本是中文还是英文,在训练阶段之前都要经过一个预处理的步骤,去除无用的信息,减少后续步骤的复杂度和计算负担。 对中文文本来说,首先要经历一个分词的过程,就是把连续的文字流切分成一个一个单独的词...

2019-01-31 12:41:33

阅读数 390

评论数 0

文本分类入门(三)——相关概念总结

文本分类入门(三)——相关概念总结 学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。 监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督学习例子就是文本分类问题,训练集是一些已经明确分好了类别文档组成,文档就是输入,对应的...

2019-01-31 12:40:10

阅读数 100

评论数 0

文本分类入门(二)——训练

文本分类入门(二)——训练 1.定义 训练,简单的说就是让计算机从给定的一堆文档中自己学习分类的规则。 开始训练之前,再多说几句关于VSM这种文档表示模型的话。 举个例子,假设说把我正在写的“文本分类入门”系列文章的第二篇抽出来当作一个需要分类的文本,则可以用如下的向量来表示这个文本,以便于计算机...

2019-01-31 12:38:59

阅读数 74

评论数 0

文本分类入门(一)——定义、方法、分类、统计学习方法

文本分类入门(一)——定义、方法、分类、统计学习方法 ​1. 文本分类问题的定义 ​ 一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章...

2019-01-31 12:35:06

阅读数 185

评论数 0

TF-IDF和TextRank算法抽取关键词源码分析

TF-IDF和TextRank算法抽取关键词源码分析 jieba分词的关键词抽取功能,是在jieba/analyse目录下实现的。 其中, __ init__.py主要用于封装jieba分词的关键词抽取接口; tfidf.py实现了基于TF-IDF算法抽取关键词; textrank.py实现了...

2019-01-23 19:53:30

阅读数 362

评论数 0

jieba-基于TextRank关键词提取的实现

jieba-基于TextRank关键词提取的实现 对每个句子进行分词和词性标注处理 过滤掉除指定词性外的其他单词,过滤掉出现在停用词表的单词,过滤掉长度小于2的单词 将剩下的单词中循环选择一个单词,将其与其后面4个单词分别组合成4条边。 例如:[‘有’,‘媒体’, ‘曝光’,‘高圆圆’, ‘...

2019-01-23 19:51:39

阅读数 540

评论数 0

TextRank算法获取文本关键词

TextRank算法获取文本关键词 1.PageRank 在了解TextRank前,首先一定要知道PageRank,实质上个人认为可以把TextRank当做PageRank2.0。谷歌的两位创始人的佩奇和布林,借鉴了学术界评判学术论文重要性的通用方法,“那就是看论文的引用次数”。由此想到网页的重...

2019-01-23 19:48:23

阅读数 385

评论数 0

jieba-基于 TF-IDF 算法的关键词抽取

jieba-基于 TF-IDF 算法的关键词抽取 通过上述三篇文章的介绍(详见其他的博客),接下来将对TF-IDF算法的实现进行介绍。 jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) s...

2019-01-20 20:31:46

阅读数 433

评论数 0

TF-IDF与余弦相似性的应用(三):自动摘要

TF-IDF与余弦相似性的应用(三):自动摘要 有时候,很简单的数学方法,就可以完成很复杂的任务。 仅仅依靠统计词频,就能找出关键词和相似文章,这两部分就是很好的例子。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 本文讨论如何通过词频,对文章进行自动摘要(Automatic summ...

2019-01-20 20:21:26

阅读数 52

评论数 0

TF-IDF与余弦相似性的应用(二):找出相似文章

TF-IDF与余弦相似性的应用(二):找出相似文章 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"百度新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到&...

2019-01-20 20:14:47

阅读数 68

评论数 0

TF-IDF与余弦相似性的应用(一):自动提取关键词

TF-IDF与余弦相似性的应用(一):自动提取关键词 ​ 如何完全不加人工干预,正确做到从一篇很长的文章中提取它的关键词(Automatic Keyphrase extraction)? ​ 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料...

2019-01-20 20:11:38

阅读数 88

评论数 0

jieba——分词、添加词典、词性标注、Tokenize

jieba——分词、添加词典、词性标注、Tokenize 1.分词 jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_search 方法接受两个参数:需要分词的字符串...

2019-01-16 21:51:53

阅读数 801

评论数 0

基于Python的jieba中文分词包的安装

基于Python的jieba中文分词包的安装 “结巴”中文分词:做最好的 Python 中文分词组件 1.特点 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基...

2019-01-16 21:41:55

阅读数 139

评论数 1

中文分词工具jieba中的词性类型

中文分词工具jieba中的词性类型 jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下: Ag 形语素 形容词性语素。形容词代码为 a,语素代码g前面置以A。 a 形容词 取英语形容词 adjective的第1个字母。 ad 副形词 直...

2019-01-16 21:34:28

阅读数 67

评论数 0

Tomcat安装及配置教程

Tomcat安装及配置教程 1.Tomcat Web服务器可以解析(handles)HTTP协议。当Web服务器接收到一个HTTP请求(request),会返回一个HTTP响应 (response),例如送回一个HTML页面。为了处理一个请求(request),Web服务器可以响应(respon...

2019-01-13 18:17:40

阅读数 4253

评论数 0

JAVA——贪吃蛇

使用JAVA制作一个贪吃蛇小游戏 1.要求 本实例用Applet实现4种级别的玩法,可以通过方向键控制蛇的运动来靠近前面的食物并吃掉食物,当碰到墙壁时作为游戏失败。 2.原理 实现4个级别,分别为 PRIMARY(初级)、 INTERMEDIATE(中级)、 SENIOR(高级)和 EXTRA(...

2019-01-11 21:29:53

阅读数 90

评论数 1

JAVA——CBC方式的解密与加密

CBC方式的解密与加密 一、创建对称密钥 现代密码算法的过程非常复杂,加密和解密使用相同的密钥,称为对称密钥算法。Java中已经提供了常用的加密算法,我们不需要了解算法的细节就可以直接使用这些算法实现加密。每一种算法所用的密钥都有所不同,本实例演示如何运用Java中提供的方法创建对称密钥,并通过...

2018-12-04 15:22:35

阅读数 193

评论数 0

JAVA——一个简单的加密和解密程序(凯撒密码)

一个简单的加密和解密程序(凯撒密码) 1.凯撒密码 凯撒密码是罗马扩张时期朱利斯·凯撒( Julius Caesar)创造的,用于加密通过信使传递的作战命令。加密的过程是将字母表中的字母移动一定位置,从而实现文本的加密。如果将字母表中的字母向右移动2位,则字母A将变为C,字母B将变为D,以...

2018-10-23 20:33:06

阅读数 1540

评论数 1

提示
确定要删除当前文章?
取消 删除
关闭
关闭