自然语言处理
文章平均质量分 66
IT界的小小小学生
写文章的目标不仅是解决问题,更是帮助阅读的人或企业实现商业价值。秉持 “从解决问题出发、在实践中学习,最终创造价值”的信念,予人玫瑰手留余香!
展开
-
N元分词算法
在自然语言处理中,我们经常需要用到n元语法模型。其中,有关中文分词的一些概念是我们需要掌握的,譬如:unigram 一元分词,把句子分成一个一个的汉字bigram 二元分词,把句子从头到尾每两个字组成一个词语trigram 三元分词,把句子从头到尾每三个字组成一个词语.我们来简单的做个练习:输入的是断好词的文本,每个句子一行。统计词unigram和bigram的频次,并原创 2017-03-14 17:45:18 · 3473 阅读 · 0 评论 -
python过滤敏感词记录
简述:关于敏感词过滤可以看成是一种文本反垃圾算法,例如题目:敏感词文本文件 filtered_words.txt,当用户输入敏感词语,则用 星号 * 替换,例如当用户输入「北京是个好城市」,则变成「**是个好城市」代码:#coding=utf-8def filterwords(x): with open(x,'r') as f: text=f.read() ...原创 2019-01-23 13:19:09 · 6848 阅读 · 6 评论 -
文本去重的技术方案讨论(一)
对于文本去重来说,我个人处理上会从数据量、文本特征、文本长度(短文本、长文本)几个方向考虑。常见的去重任务,如网页去重,帖子去重,评论去重等等。好的去重任务是不仅比对文本的相似性,还要比对语义上的相似性。下面我们来介绍下文本去重的方案。1.传统签名算法与文本完整性判断一、传统签名算法与文本完整性判断问题抛出:(1)运维上线一个bin文件,将文件分发到4台线上机器上,如何判断bin文件...原创 2019-01-18 14:47:25 · 2778 阅读 · 0 评论 -
自然语言处理之分词、命名主体识别、词性、语法分析-stanfordcorenlp-NER(二)
转载请注明出处:https://blog.csdn.net/HHTNAN在前面我们介绍了Stanford CoreNLP,自然语言处理之命名实体识别-tanfordcorenlp-NER(一)功能列表工具以及对各种语言的支持如下表(英文和中文支持的最好),分别对应:分词,断句,定词性,词元化,分辨命名实体,语法分析,情感分析,同义词分辨等。Annotatorarzhenfrdees...原创 2018-12-18 14:20:32 · 4718 阅读 · 3 评论 -
自然语言处理之命名实体识别-tanfordcorenlp-NER(一)
CoreNLP 项目是Stanford开发的一套开源的NLP系统。包括tokenize, pos , parse 等功能,与SpaCy类似。SpaCy号称是目前最快的NLP系统, 并且提供现成的python接口,但不足之处就是目前还不支持中文处理, CoreNLP则包含了中文模型,可以直接用于处理中文, 但CoreNLP使用Java开发,python调用稍微麻烦一点。Stanford CoreN...原创 2018-12-18 11:27:40 · 4370 阅读 · 1 评论 -
关于kenlm工具训练统计语言模型
概述统计语言模型工具有比较多的选择,目前使用比较好的有srilm及kenlm,其中kenlm比srilm晚出来,训练速度也更快,而且支持单机大数据的训练。现在介绍一下kenlm的使用方法。特征“语言行业最大的改进是增加了新的语言模型KenLM,它快速,节省内存,最重要的是,允许在开源许可下使用多核处理器。”比SRILM和IRSTLM 更快,更低的内存。使用用户指定的RAM 进行磁盘估计...原创 2018-11-19 10:19:41 · 5342 阅读 · 0 评论 -
自然语言处理-错字识别(基于Python)kenlm、pycorrector
中文文本纠错划分中文文本纠错任务,常见错误类型包括:谐音字词,如 配副眼睛-配副眼镜混淆音字词,如 流浪织女-牛郎织女字词顺序颠倒,如 伍迪艾伦-艾伦伍迪字词补全,如爱有天意-假如爱有天意形似字错误,如 高梁-高粱中文拼音全拼,如 xingfu-幸福中文拼音缩写,如 sz-深圳语法错误,如想象难以-难以想象当然,针对不同业务场景,这些问题并不一定全部存在,比如输入法中需要处...原创 2018-11-15 13:54:24 · 16954 阅读 · 20 评论 -
自然语言处理之hanlp,Python调用与构建,分词、关键词提取、命名主体识别
转载请注明出处:https://blog.csdn.net/HHTNANHanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。在Python中一种是直接调用hanlp的接口pyhanlp.还有就是导入其基于Java的原始配置文件。关于pyhanlpHanL...原创 2018-08-21 15:30:53 · 13347 阅读 · 2 评论 -
Python3 pandas read_csv 读取txt文件报错:IOError: Initializing from file failed
错误代码: data=pd.read_csv(‘C:\Users\lenovo\Desktop\停用词文件\后缀词处理260\handle_data_01.txt’,sep=’\n’) print(data) 解决办法: **1.把当前路径中的中文改成英文。 2.修改正确的编码** 正确代码:data=pd.read_csv('C:\\Users\\lenovo\\Desktop\\h原创 2017-12-07 11:05:11 · 2530 阅读 · 0 评论 -
DOC2VEC:所涉及的参数以及WORD2VEC所涉及的参数
DOC2VEC:所涉及的参数 class gensim.models.doc2vec.Doc2Vec(documents=None, dm_mean=None, dm=1, dbow_words=0, dm_concat=0, dm_tag_count=1, docvecs=None, docvecs_mapfile=None, comment=None, trim_rule=None, **kw原创 2017-12-08 12:20:54 · 8347 阅读 · 5 评论 -
jieba(结巴)分词种词性简介
在做实际项目中,经常用到文本分析过程中的结巴分词功能,为了更好的得到结果,需要限定分词词性,接替可参见之间的博客: http://blog.csdn.net/hhtnan/article/details/76586693 在结巴分词限定的词性allowPOS 词性如何指定原创 2017-08-28 16:15:29 · 5152 阅读 · 1 评论 -
Python生成词云图,TIIDF方法文本挖掘: 词频统计,词云图
python中使用wordcloud包生成的词云图。下面来介绍一下wordcloud包的基本用法。class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizontal=0.9,mask=None, scale=1, color_func=None, m原创 2017-08-27 18:46:23 · 14545 阅读 · 0 评论 -
计算机常用算法对照表整理
常用对照:NLPCRF算法: 中文名称条件随机场算法,外文名称conditional random field algorithm,是一种数学算法,是2001年提出的,基于遵循马尔可夫性的概率图模型。全部对照第一部分、计算机算法常用术语中英对照 Data Structures 基本数据结构 Dictionaries 字典 Priority Queues 堆 Graph Data原创 2017-07-26 10:58:01 · 11395 阅读 · 1 评论 -
Pattern matching: The gestalt approach一种序列的文本相似度方法
Pattern matching: The gestalt approachpython 比较两个序列的相似度,不需要分词案例1import diffliba="做子宫肌瘤微创手术用多少钱"b="股癣是什么样子的?怎么治疗股癣好?"print (difflib.SequenceMatcher(None,a,b).rat原创 2019-02-26 13:39:13 · 1476 阅读 · 0 评论