自然语言处理
余康-数据研究,足球迷弟
一个热爱解决IT问题,足球狂热迷的IT屌丝
展开
-
递归特征消除Recursive feature elimination (RFE)
递归特征消除的主要思想是反复的构建模型(如SVM或者回归模型)然后选出最好的(或者最差的)的特征(可以根据系数来选),把选出来的特征选择出来,然后在剩余的特征上重复这个过程,直到所有特征都遍历了。这个过程中特征被消除的次序就是特征的排序。因此,这是一种寻找最优特征子集的贪心算法。RFE的稳定性很大程度上取决于在迭代的时候底层用哪种模型。例如,假如RFE采用的普通的回归,没有经过正则化的回归是...原创 2018-09-06 09:32:12 · 11747 阅读 · 6 评论 -
探索TextRank提取文本关键词
TextRank算法介绍 先说一下自动文摘的方法。自动文摘(Automatic Summarization)的方法主要有两种:Extraction和Abstraction。其中Extraction是抽取式自动文摘方法,通过提取文档中已存在的关键词,句子形成摘要;Abstraction是生成式自动文摘方法,通过建立抽象的语意表示,使用自然语言生成技术,形成摘要。由于生成式自动摘要方法需要复杂的...原创 2019-04-10 18:08:52 · 1799 阅读 · 1 评论 -
探索tf-idf提取文本关键词
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency)。TF-IDF实际上是:TF * IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse Do...原创 2019-04-10 18:03:20 · 3987 阅读 · 3 评论 -
NLTK:Resource punkt not found. Please use the NLTK Downloader to obtain the resource:2步解决
打开CMD 命令进入Python交互模式>>> import nltk >>> nltk.download()会弹出一个界面,如图:点击Models ,双击punkt或者选择点击Download安装完成就不会报错了。 ...原创 2018-08-29 15:50:08 · 12010 阅读 · 5 评论 -
python用Levenshtein计算文本相似度(附带所有个人对函数的理解)
安装 Levenshtein 报错问题点击:解决安装python-Levenshtein时出现“Unable to find vcvarsall.bat”错误#! /usr/bin/python# -*- coding: utf8 -*-# @Time : 2018/8/30 10:11# @Author : yukangfrom Levenshtein import *...原创 2018-08-30 13:30:02 · 13614 阅读 · 1 评论 -
解决安装python-Levenshtein时出现“Unable to find vcvarsall.bat”错误
安装过程:1.pip install python-Levenshtein 或 下载包到本地,在cd到目录下运行 python setup.py install 我用的是第二种方式;2.此过程中报错 unable to find vcvarsall.bat; 详细解决方案见:https://blog.csdn.net/fyuanfena/article/details/520...原创 2018-08-30 11:44:55 · 7998 阅读 · 1 评论 -
jieba分词中所有词性对应字母符号显示(词性列表及符号表示)
1. 名词 (1个一类,7个二类,5个三类)n 名词nr 人名nr1 汉语姓氏nr2 汉语名字nrj 日语人名nrf 音译人名ns 地名nsf 音译地名nt 机构团体名nz 其它专名nl 名词性惯用语ng 名词性语素2. 时间词(1个一类,1个二类)t 时间词tg 时间词性语素3. 处所词(1个一类)s 处所词 (家中、门外、境内、西方……)4. 方位词(...原创 2018-08-30 10:09:43 · 7599 阅读 · 5 评论 -
jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP自然语言处理
1. NLP 走近自然语言处理概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话、办公写作、上网浏览希望机器能像人一样去理解,以人类自然语言为载体的文本所包含的信息,并完成一些特定任务内容中文分词、词性标注、命名实体识别、关系抽取、关键词提取、信息抽取、依存分析、词嵌入……应用篇章理解、文本摘要、情感分析、...原创 2018-08-30 10:07:09 · 5201 阅读 · 1 评论 -
深入jieba和NLTK提取文本词向量,词性等
#! /usr/bin/python# -*- coding: utf8 -*-# @Time : 2018/8/29 15:15# @Author : yukangimport nltk,jieba,reimport jieba.analyseimport jieba.posseg as psegfrom nltk.probability import FreqDist...原创 2018-08-30 09:36:45 · 6953 阅读 · 0 评论 -
快速上手结巴分词
一.特点1、支持三种分词模式 精确模式,试图将句子最精确的切开; 全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。2、支持繁体分词3、支持自定义词典4、MIT授权协议二.安装说明代码对Python 2/3 均兼容全自动安装:e...转载 2018-07-12 16:19:05 · 4762 阅读 · 0 评论