- 博客(16)
- 资源 (4)
- 收藏
- 关注
原创 文本分类入门(五)——关于开方检验和信息增益特征选择算法
文本分类入门(五)——关于开方检验和信息增益特征选择算法1.开方检验 前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量...
2019-01-31 12:45:14 535
原创 文本分类入门(三)——相关概念总结
文本分类入门(三)——相关概念总结学习方法:使用样例(或称样本,训练集)来合成计算机程序的过程称为学习方法[22]。监督学习:学习过程中使用的样例是由输入/输出对给出时,称为监督学习[22]。最典型的监督学习例子就是文本分类问题,训练集是一些已经明确分好了类别文档组成,文档就是输入,对应的类别就是输出。非监督学习:学习过程中使用的样例不包含输入/输出对,学习的任务是理解数据产生的过程 [...
2019-01-31 12:40:10 565
原创 文本分类入门(二)——训练
文本分类入门(二)——训练1.定义训练,简单的说就是让计算机从给定的一堆文档中自己学习分类的规则。开始训练之前,再多说几句关于VSM这种文档表示模型的话。举个例子,假设说把我正在写的“文本分类入门”系列文章的第二篇抽出来当作一个需要分类的文本,则可以用如下的向量来表示这个文本,以便于计算机理解和处理。w2=(文本,5,统计学习,4,模型,0,……)w_{2}=(文本,5,统计学习,4,...
2019-01-31 12:38:59 1083
原创 文本分类入门(一)——定义、方法、分类、统计学习方法
文本分类入门(一)——定义、方法、分类、统计学习方法1. 文本分类问题的定义 一个文本(以下基本不区分“文本”和“文档”两个词的含义)分类问题就是将一篇文档归入预先定义的几个类别中的一个或几个,而文本的自动分类则是使用计算机程序来实现这样的分类。通俗点说,就好比你拿一篇文章,问计算机这文章要说的究竟是体育,经济还是教育,计算机答不上就揍它。注意这个定义当中着重强调的两个事...
2019-01-31 12:35:06 1018 1
原创 TF-IDF和TextRank算法抽取关键词源码分析
TF-IDF和TextRank算法抽取关键词源码分析jieba分词的关键词抽取功能,是在jieba/analyse目录下实现的。其中,__ init__.py主要用于封装jieba分词的关键词抽取接口;tfidf.py实现了基于TF-IDF算法抽取关键词;textrank.py实现了基于TextRank算法抽取关键词。1.TF-IDF算法基于TF-IDF算法抽取关键词的主调函数...
2019-01-23 19:53:30 1822 2
原创 jieba-基于TextRank关键词提取的实现
jieba-基于TextRank关键词提取的实现对每个句子进行分词和词性标注处理过滤掉除指定词性外的其他单词,过滤掉出现在停用词表的单词,过滤掉长度小于2的单词将剩下的单词中循环选择一个单词,将其与其后面4个单词分别组合成4条边。例如:[‘有’,‘媒体’, ‘曝光’,‘高圆圆’, ‘和’, ‘赵又廷’,‘现身’, ‘台北’, ‘桃园’,‘机场’,‘的’, ‘照片’]对于‘媒体‘这个单...
2019-01-23 19:51:39 2404 2
原创 TextRank算法获取文本关键词
TextRank算法获取文本关键词1.PageRank在了解TextRank前,首先一定要知道PageRank,实质上个人认为可以把TextRank当做PageRank2.0。谷歌的两位创始人的佩奇和布林,借鉴了学术界评判学术论文重要性的通用方法,“那就是看论文的引用次数”。由此想到网页的重要性也可以根据这种方法来评价。于是PageRank的核心思想就诞生了:如果一个网页被很多其他网页链...
2019-01-23 19:48:23 1082
原创 jieba-基于 TF-IDF 算法的关键词抽取
jieba-基于 TF-IDF 算法的关键词抽取通过上述三篇文章的介绍(详见其他的博客),接下来将对TF-IDF算法的实现进行介绍。jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())sentence 为待提取的文本topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20...
2019-01-20 20:31:46 5973 3
原创 TF-IDF与余弦相似性的应用(三):自动摘要
TF-IDF与余弦相似性的应用(三):自动摘要有时候,很简单的数学方法,就可以完成很复杂的任务。仅仅依靠统计词频,就能找出关键词和相似文章,这两部分就是很好的例子。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。本文讨论如何通过词频,对文章进行自动摘要(Automatic summarization)。1.分簇如果能从3000字的文章,提炼出150字的摘要,就可以为读者节省大量...
2019-01-20 20:21:26 382
原创 TF-IDF与余弦相似性的应用(二):找出相似文章
TF-IDF与余弦相似性的应用(二):找出相似文章今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"百度新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。为了能够更好的理解这个概念,我们先从句子着手。句子A:我喜欢看电视,不喜欢看电影句子B:我不喜欢看电视...
2019-01-20 20:14:47 332
原创 TF-IDF与余弦相似性的应用(一):自动提取关键词
TF-IDF与余弦相似性的应用(一):自动提取关键词 如何完全不加人工干预,正确做到从一篇很长的文章中提取它的关键词(Automatic Keyphrase extraction)? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果,这就是我今天想要介绍的TF-IDF算法。...
2019-01-20 20:11:38 408
原创 jieba——分词、添加词典、词性标注、Tokenize
jieba——分词、添加词典、词性标注、Tokenize1.分词jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细待分词的字符串可以是 ...
2019-01-16 21:51:53 18760 1
原创 基于Python的jieba中文分词包的安装
基于Python的jieba中文分词包的安装“结巴”中文分词:做最好的 Python 中文分词组件1.特点支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。支持繁体分词支持自定义词典MIT 授...
2019-01-16 21:41:55 1648 1
原创 中文分词工具jieba中的词性类型
中文分词工具jieba中的词性类型jieba为自然语言语言中常用工具包,jieba具有对分词的词性进行标注的功能,词性类别如下:Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。an名形词具有名词功能的形容词。形容词...
2019-01-16 21:34:28 528 1
原创 Tomcat安装及配置教程
Tomcat安装及配置教程1.TomcatWeb服务器可以解析(handles)HTTP协议。当Web服务器接收到一个HTTP请求(request),会返回一个HTTP响应 (response),例如送回一个HTML页面。为了处理一个请求(request),Web服务器可以响应(response)一个静态页面或图片, 进行页面跳转(redirect),或者把动态响应(dynamic resp...
2019-01-13 18:17:40 63951 12
原创 JAVA——贪吃蛇
使用JAVA制作一个贪吃蛇小游戏1.要求本实例用Applet实现4种级别的玩法,可以通过方向键控制蛇的运动来靠近前面的食物并吃掉食物,当碰到墙壁时作为游戏失败。2.原理实现4个级别,分别为 PRIMARY(初级)、 INTERMEDIATE(中级)、 SENIOR(高级)和 EXTRA(特级),选择级别进入游戏界面。方向键用来控制蛇的运动。小蛇向着食物的方向前进,如果不小心碰到墙壁则游...
2019-01-11 21:29:53 681 1
使用JAVA实现简单的贪吃蛇小程序
2019-01-11
JAVA运用ArrayList实现逻辑推理题(谁养鱼)
2018-10-18
使用JAVA编制时钟程序
2018-09-23
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人