NLP 自然语言处理
文章平均质量分 90
自然语言处理学习笔记
总裁余(余登武)
这个作者很懒,什么都没留下…
展开
-
python-NLP:4句法分析
python-NLP:4句法分析原创 2024-08-12 11:44:04 · 1135 阅读 · 0 评论 -
python-NLP:3关键词提取
python-NLP:3关键词提取原创 2024-08-10 20:02:00 · 972 阅读 · 0 评论 -
python-NLP:2词性标注与命名实体识别
python-NLP:2词性标注与命名实体识别原创 2024-07-24 20:06:28 · 1020 阅读 · 0 评论 -
python-NLP:1中文分词
python-NLP:1中文分词原创 2024-07-20 21:23:34 · 1120 阅读 · 0 评论 -
NLP: 词袋模型和TFIDF模型
NLP教程:1 词袋模型和TFIDF模型原创 2024-07-18 18:59:32 · 1237 阅读 · 0 评论 -
NLP分析小说人物关系,找找主人公的真爱。
NLP分析小说人物关系,找找主人公的真爱。 基于共现。语言python原创 2021-03-26 18:47:22 · 2060 阅读 · 3 评论 -
nlp中文文本摘要提取,快速提取文本主要意思
python 中文文本摘要提取。有代码,有界面。原创 2021-03-24 14:08:12 · 11661 阅读 · 13 评论 -
用100行python代码发现语音识别文本错误词,并将结果和正确词一一对应
在做nlp任务时,我们常常和语音结合起来,即将语音转为文本,然后将文本做一系列任务。但是语音转换成文本,肯定有一系列错误。我们可以文本纠错文本纠错见我的另一篇博客。中文文本纠错 算例实现(有算例完整代码)这篇博客中提到要准备一个 正确词的txt。那究竟什么是正确词,对于特殊任务怎么办,于是我们得首先发现语音识别对那些词容易识别错误。然后将那些经常错误的词对于的正确词添加进文本纠错系统里的正确词txt中。然后再文本纠错。本文讲解如何发现语音转换中 错误词和正确词代码#!/usr/bin原创 2020-10-06 17:32:27 · 3240 阅读 · 2 评论 -
基于倒排表的电力调度知识问答系统构建 (100行代码带你实现nlp问答系统)
问答系统所需要的数据已经提供,对于每一个问题都可以找得到相应的答案,所以可以理解为每一个样本数据是 <问题、答案>。 那系统的核心是当用户输入一个问题的时候,首先要找到跟这个问题最相近的已经存储在库里的问题,然后直接返回相应的答案即可。由于作者是学电气的,这里以电力调度知识文本来构建问答系统原始表格样子,我准备了调度相关的205个的问题和答案。语言:python3.7第一步:读取数据import pandas as pdimport numpy as npimport jieb原创 2020-10-02 15:04:59 · 4660 阅读 · 16 评论 -
python 实现文本自动翻译功能
在编程生活中,有的时候我们需要实现翻译功能。如我们训练的是中文句子,我们需要将结果变成英文。示例首先,下载包,pip install translate#!/usr/bin/env python3# -*- coding: utf-8 -*-# @Author: yudengwu(余登武)# @Date : 2020/9/14#@email:1344732766@qq.comfrom translate import Translatortranslator= Translator(原创 2020-09-14 14:43:56 · 2902 阅读 · 1 评论 -
python :jieba库的使用大全
安装jieba 是一个第三方库,所有需要我们在本地进行安装。Windows 下使用命令安装:在联网状态下,在anaconda命令行下输入 pip install jieba 进行安装,安装完成后会提示安装成功 .分词使用分词的语法就不讲解啦,什么前向匹配,逆向匹配,还需要一个足够大的本地词典。自己构造挺麻烦的。直接使用包吧。直接使用jieba.cut#!/usr/bin/env python3# -*- coding: utf-8 -*-# @Author: yudengwu(余登武)#原创 2020-09-10 15:52:11 · 6994 阅读 · 1 评论 -
基于聚类算法的文本热点问题挖掘算例实现(文本聚类)
在现实生活中,有时候我们可能得到一大堆无标签文本,这时候可能需要对文本进行聚类挖掘,找出热点问题是什么。文本聚类第一步:数据读取import pandas as pdimport reimport jiebacsv='95598处理后.csv'file_txt=pd.read_csv(csv, header=0,encoding='gbk')#file_txt=file_txt.dropna()#删除空值[4229 rows x 2 columns]print(file_txt.head原创 2020-09-07 15:38:46 · 6255 阅读 · 3 评论 -
word2vec词向量 文本分类实现(TensorFlow版,算法TextCNN)
之前也写过word2vec词向量文本分类实现,不过那是基于Keras。今天来写下tensoflow版的代码。再来感受下它的魅力。tensorflow比Keras更接近底层,可以更方便让我们理解Word2vector如何应有在文本分类中简化版例子。之前的文本分类博客链接:基于词向量word2vec模型的文本分类实现(算例有代码 Keras版)短文本分类:电力95598工单分类实现 tf-idf算例第一步:导入包#!/usr/bin/env python3# -*- coding: utf原创 2020-09-06 15:01:14 · 7102 阅读 · 4 评论 -
word2vec原理及其实现(基于python)
word2vec原理词袋模型(bag of word)模型是最早的以词语为基本处理单元的文本向量化方法。举个简单的例子说明下。假设有两个文本John likes to watch movies, mary likes too.john also likes to watch football games.基于文本构建词典{‘john’:1,‘likes’:2,‘to’:3,‘watch’:4,‘movies’:5,‘also’:6,‘football’:7,‘games’:8,'mary‘原创 2020-09-04 16:31:45 · 9439 阅读 · 1 评论 -
NNLM语言模型python实现(例子:基于中文语料)
原理图运用场景:知道句子的前N-1个词,来预测第N个词。网络的流程:1.词语one-hot编码—————2.projection_layer层————3.hidden_layer层——————4.SoftMax层1准备工作这个代码是我在GitHub上看到的,原代码是针对英文,英文比较简单。我修改下针对中文。并给出Keras版代码。import numpy as npimport tensorflow as tfimport resentences = [ "我爱你", "余登武",原创 2020-08-26 17:05:33 · 2607 阅读 · 0 评论 -
gensim lda文本无监督分类实现 (有代码)
原理讲解在文本挖掘领域,大量的数据都是非结构化的,很难从信息中直接获取相关和期望的信息,一种文本挖掘的方法:主题模型能够识别在文档里的主题,并且挖掘语料里隐藏信息,并且在主题聚合、从非结构化文本中提取信息、特征选择等场景有广泛的用途。主题可以被定义为“语料库中具有相同词境的词的集合模式”,比如说,主题模型可以将“健康”,“医生”,“医院” 集合成 “医疗” 主题将 “农场”,“玉米”, 集合成 “农业”主题如图,LDA模型输入的是文档,超参数1主题个数。 输出的是文档主题概率分布。其中0.4表原创 2020-07-25 09:58:45 · 5149 阅读 · 2 评论 -
基于词向量word2vec模型的文本分类实现(算例有代码)
词向量词向量大白话解释:就是一个神经网络。针对一段文本,输入前面几个单词和后面几个单词。输出当前这个单词。然后用神经网络中间层的权重系数来表示输出的这个Y单词。词向量是表示文本的一种方式,词汇表中的每个单词由高维空间的实值向量表示。具有相似含义的单词在向量空间中具有相似的表达能力(在向量空间中接近)。有很多封装好的模块可以帮我们词向量。我们只需将得到的词向量作为我们分类器的输入,来完成文本分类。算例数据集电力95598工单 两行,第一行为类别标签。第二行为工单文本。本文主要基于95598工原创 2020-07-09 16:14:37 · 18746 阅读 · 29 评论 -
nlp事件抽取算例实现:(有完整算例和完整代码)
定义事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。事件抽取任务:事件有很多种,如因果事件,转则事件。。。统一定义:一般一个事件都有事件原创 2020-06-27 17:41:13 · 15404 阅读 · 4 评论 -
nlp 中文停用词数据集
nlp 中文停用词数据集 不多说,上数据集———》),)÷(1-”,)、=(:→℃&*一一~~~~’.『.一./--』=″【[*]}>[⑤]][①D]c]1234567890ng昉*//[][②e][②g]={},也‘A[①⑥][②B][①a][④a][①③][③h]③]1.--[②b]’‘×××[①⑧]0:2=[[⑤b][②c][④b][②③][③a][原创 2020-06-24 10:59:34 · 3703 阅读 · 0 评论 -
python正则匹配地址(正则匹配地名)
匹配地名:不多说,上代码def Match_Address(data): import re PATTERN1 = r'([\u4e00-\u9fa5]{2,5}?(?:省|自治区|市)){0,1}([\u4e00-\u9fa5]{2,7}?(?:区|县|州)){0,1}([\u4e00-\u9fa5]{2,7}?(?:镇)){0,1}([\u4e00-\u9fa5]{2,7}?(?:村|街|街道)){1}([\d]{2,7}?(号)){0,1}' # \u4e00-\u9fa5原创 2020-06-23 10:56:02 · 8679 阅读 · 5 评论 -
中文文本纠错 算例实现(有算例完整代码)
概述文本纠错又称为拼写错误或者拼写检查,由于纯文本往往来源于手打或者OCR识别,很可能存在一些错误,因此此技术也是一大关键的文本预处理过程,一般存在两大纠错类型。1拼写错误第一种是Non-word拼写错误,表示此词汇本身在字典中不存在,比如把“要求”误写为“药求”,2.少字多字中文文本纠错比较难,不多说。上思路思路:1首先:本地得有一个正确字词的数据库 。命名 数据库.txt格式:第一列正确字词,第二列 词频 ,第三列 词性本文只用词和词频。考虑词性太难啦2.得有一个文档txt,供原创 2020-06-22 17:30:24 · 14667 阅读 · 10 评论 -
中文文本摘要提取 (文本摘要提取 有代码)基于python
任务简介文本摘要旨在将文本或文本集合转换为包含关键信息的简短摘要。文本摘要按照输入类型可分为单文档摘要和多文档摘要。单文档摘要从给定的一个文档中生成摘要,多文档摘要从给定的一组主题相关的文档中生成摘要。按照输出类型可分为抽取式摘要和生成式摘要。摘要:意思就是从一段文本 用几句话来概括这段话的意思方法有很多本文只讲我会的 。思路1 :将文本分词,统计一段文本的词频(当然是去除停用词之后的词频),得到{词:词频}2: 对文本进行分句3:对句子进行打分,统计这个句子中出现的每个词的词频,句子得分原创 2020-06-21 16:27:35 · 25490 阅读 · 23 评论 -
短文本分类:电力95598工单分类实现
前言随着信息化的快速发展,电网各企业积累的数据越来越多。在电力操作规则,运维记录,调度运行记录,营销档案,客服,故障检修等存在着大量文本类数据[由于中文文本类数据的复杂性,无法直接运用机器学习对文本数据进行智能化分析,因此基于电力文本的文本挖掘技术研究显得十分重要。研究电力文本特征提取,电网本体建模。构建调控、检修和营销等知识图谱。支持电力调度机器人,电网设备智能运维和智能客服等,最终形成新一代电力智能搜索和问答解决方案。1 文本分类流程文本分类任务过程包括对文本进行预处理如用正则提取我们想要的文本、原创 2020-06-04 17:30:24 · 9101 阅读 · 46 评论 -
python文本时间提取
来源于 Python自然语言处理实战导入库import refrom datetime import datetime, timedeltafrom dateutil.parser import parseimport jieba.posseg as psgUTIL_CN_NUM = {'零': 0, '一': 1, '二': 2, '三': 3, '四': 4, '五': 5, '六': 6, '七': 7, '八': 8, '九': 9, '0': 0, '1': 1, '2': 2,原创 2020-05-29 14:19:48 · 3456 阅读 · 2 评论 -
python :re模块基本用法
re.match函数re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。函数语法:re.match(pattern, string, flags=0)import reprint(re.match("www", "www.runoob.com") )print(re.match("com", "www.runoob.com"))结果:re.search()re.search()方法扫描整个字符串,并返回第一个成功的匹配。如果原创 2020-05-29 12:49:07 · 3275 阅读 · 2 评论 -
文本相似度几种计算方法及代码python实现
文本相似度的计算广泛的运用在信息检索,搜索引擎, 文档复制等处:因此在各种不同的情况与任务中,有不同的文本相似度计算。方法1 编辑距离编辑距离又称Levenshtein距离,是指将一个字符串转为另一个字符串所需的字符编辑次数,包括以下三种操作:插入 - 在任意位置插入一个字符删除 - 将任意一个字符删除替换 - 将任意一个字符替换为另一个字符编辑距离可以用来计算两个字符串的相似度,它的应用场景很多,其中之一是拼写纠正(spell correction)。 编辑距离的定义是给定两个字符串str1原创 2020-05-28 10:31:35 · 17530 阅读 · 8 评论 -
情感分析基于词典(算例代码)
情感分析是指挖掘文本表达的观点,识别主体对某客体的评价是褒还是贬,褒贬根据进态度行倾向性研究。文本情感分析可以分为基于机器学习的情感分类方法和基于语义理解的情感分析。基于机器学习进行语义分析的话需要大量的训练集,同时需要人工对其进行分类标注。本文采用基于词典的方法的进行情感分析。 词典情感分析流程图如下:大致意思就是将输入的文本进行分词,将分的词和词典数据库的的词进行匹配。看是属于积极还是消极,否定,还是程度词。然后按照人为定义的打分公式对每个词进行情感打分。每个词汇的情感平均值作为整个句子...原创 2020-05-21 16:24:52 · 5567 阅读 · 2 评论 -
古诗文本自动生成唐诗文本生成(算例代码)
首先准备好一个本地文件,在此我命名为唐诗三百首.txt如下图(https://img-blog.csdnimg.cn/2020052109325779.png?x图片:##代码如下在这里插入代码片import numpy as np, osfrom collections import Counterfrom warnings import filterwarningsfilterwarnings('ignore') # 不打印警告from keras.utils import to_c原创 2020-05-21 09:55:31 · 10668 阅读 · 1 评论