python自然语言
文章平均质量分 78
水...琥珀
数据挖掘,自然语言处理,如果恰巧你也是,同行!
展开
-
《python 数据挖掘概念、方法与实践》第6章 文本命名实体识别
本文章将对英文实体命名识别进行可操作的实战,对原书代码有较大的改动和进行代码注释脉络如下:介绍原书代码更改文本进行代码重造 进行代码重造对原书的代码及文本python 数据挖掘概念、方法与实践代码点击打开链接进行操作,出现一些问题,原书代码如下:import nltkimport pprint# sample files that we use in this chapter#file...原创 2018-03-23 11:25:24 · 417 阅读 · 0 评论 -
python work2vec词向量应用方法汇总
目录前期工作可参阅:work2vec词向量应用汇总(词语相似度、集合相似度、词向量计算等)1.获取每个词的词向量2支持词语的加减运算。(实际中可能只有少数例子比较符合)3计算两个词之间的余弦距离4计算余弦距离最接近“word”的10个词,或topn个词5计算两个集合之间的余弦似度6.选出集合中不同类的词语看了很多资源,总感觉work2vec词向量应用总结得不全面...原创 2018-12-23 20:44:27 · 3140 阅读 · 0 评论 -
python训练work2vec词向量(python gensim)
目录看了很多文章,对与word2vec语料的处理没有那么清晰,现在写下自己处理流程,方便入手的小伙伴,望大家使用的过程中,少走弯路。训练语料格式模型训练1.安装gensim2.模型训练3.模型保存3.1模型训练保存与加载1(模型可继续训练)3.1.1模型继续训练3.2模型训练保存与加载2(模型不可继续训练)模型使用汇总(词语相似度、集合相似度、词向量计算等)...原创 2018-12-21 17:59:10 · 22317 阅读 · 9 评论 -
word2vec词向量中文语料处理(python gensim word2vec总结)
目录中文语料处理法一:语料处理为列表法二:语料是文件(处理为迭代器)对一个目录下的所有文件生效(法1) 对一个目录下的所有文件生效(法2)class : gensim.models.word2vec.PathLineSentences对于单个文件语料,使用LineSentence语料库获取语料word2vec中文语料处理及模型训练实践python gensi...原创 2018-12-21 15:41:45 · 35472 阅读 · 17 评论 -
python 分词器使用
个人接触的分词器 安装 调用 jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba 清华大学THULAC:一个高效的中文词法分析工具包 https://github.com/thunlp/THULAC-Python FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词 https://g...原创 2018-08-08 11:02:32 · 2210 阅读 · 0 评论 -
python 哈工大NTP分词 安装pyltp 及配置模型(python3.5 3.6)
哈工大语言云 NTP python使用系统配置(方法windows通用): windows10 python3.5第一步 :安装pyltp(无果的) cmd pip install pyltp 失败 (无果的)[pip 指定 安装源方法安装] ,此方法很长时间,也不一定有结果,不建议再尝试啦(https://blog.csdn.net/shuihupo/article/d...原创 2018-08-10 22:11:14 · 15437 阅读 · 8 评论 -
python 分词器比较
个人接触的分词器jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba清华大学THULAC:一个高效的中文词法分析工具包 https://github.com/thunlp/THULAC-Python FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词 https://github...原创 2018-08-06 11:22:33 · 1546 阅读 · 0 评论 -
分词工具 结巴个人词典构造
结巴结巴JIEBA项目github地址训练数据载入词典开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率 用法: jieba.load_userdict(file_name) # file_name 为文件类对象或自定义词典的路径 词典格式和 dict.txt 一样,一个词...原创 2018-08-05 22:40:19 · 5742 阅读 · 0 评论 -
Python 自然语言处理 命名 实体识别
NER系统的构建与评估:1.将文档分割成句子2.将句子分割为单词3.标记每个单词的词性4.从标记单词集中识别出命名实体5.识别每个命名实体的分类6.评估NLTK(Natural Language Toolkit)自然语言处理工具包,在NLP领域中,比较常用的一个Python库。它提供了易于使用的接口,通过这些接口可以访问超过50个语料库和词汇资源...原创 2018-08-09 17:45:19 · 11749 阅读 · 4 评论 -
FoolNLTK 及 HanLP使用
个人接触的分词器 安装 调用 jieba“结巴”中文分词:做最好的 Python 中文分词组件https://github.com/fxsjy/jieba 清华大学THULAC:一个高效的中文词法分析工具包 https://github.com/thunlp/THULAC-Python FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词 https://g...原创 2018-08-09 17:10:29 · 3785 阅读 · 0 评论 -
中文分词工具比较 6大中文分词器测试(哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP)
#!/ Mypython# -*- coding: utf-8 -*-# @Time : 2018/8/5 22:19# @Author : LinYimeng# @File : fenci_ceshi.py# @Software: PyCharmimport timetestCases=["结婚的和尚未结婚的确实在干扰分词啊&a原创 2018-08-09 17:08:41 · 32025 阅读 · 12 评论 -
自然语言处理 其他
ICTCLAS中科院怎么用pythonPython调用PYNIPIR(ICTCLAS)进行中文分词这里写链接内容HanLP训练命名实体识别模型目前HanLP中的命名实体识别主要通过HMM-角色标注模型来实现,由于这是一整套理论,所以HanLP实现了通用的抽象工具,并且通过其子类实现了人名、地名、机构名的模型训练。本文将介绍通用的抽象工具,以及如何继承该工具实现常见命名实体识别模...原创 2018-08-09 17:03:41 · 198 阅读 · 0 评论 -
python学习 文本特征提取(三) CountVectorizer TfidfVectorizer 朴素贝叶斯分类性能测试
python学习 文本特征提取(一) DictVectorizer shuihupo 博客地址,https://blog.csdn.net/shuihupo/article/details/80923414 python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理python学习 文本特征提取(三) CountVectorizer ...原创 2018-07-05 18:11:53 · 2842 阅读 · 0 评论 -
python学习 文本特征提取(二) CountVectorizer TfidfVectorizer 中文处理
上一篇博客shuihupo 博客地址,https://blog.csdn.net/shuihupo/article/details/80923414 shuihupo对字典储存的的数据,我们使用CountVectorizer对特征进行抽取和向量化。 在文本数据处理中,我们遇到的经常是一个个字符串,且对于中文来说,经常要处理没有分割符的大段最原始的字符串(这种数据需要先分词,转化为一个分割好的字符...原创 2018-07-05 18:06:00 · 13048 阅读 · 2 评论 -
python学习 文本特征提取(一) DictVectorizer
DictVectorizer对使用字典储存的数据进行特征提取与向量化python3处理字典数据# 定义一组字典列表,用来表示多个数据样本(每个字典代表一个数据样本)。measurements = [{'city': 'Dubai', 'temperature': 33.}, {'city': 'London', 'temperature': 12.}, {'city': 'San F...原创 2018-07-05 10:45:09 · 3411 阅读 · 0 评论 -
Python NLTK 自然语言处理入门与例程
发现外国的这个博客写的很不错,流程清晰明了,讲述简单,操作可行。文章脉络如下:1 What is NLP?2 Benefits of NLP3 NLP Implementations4 NLP Libraries5 Install NLTK6 Tokenize Text Using Pure Python7 Count Word Frequency8 Remove Stop Words Using...原创 2018-03-21 09:26:01 · 1054 阅读 · 0 评论 -
python安装与测试NLTK
1、pip install nltk 2.运行以下操作:import nltknltk.download()运行成功后弹出NLTK Downloader,点击"all" 修改下载路径 "download"下载所有包。记住路径就好。建议如下路径: 'C:\\Users\\Administrator/nltk_data' - 'C:\\nltk_data' - 'E:\\nlt...原创 2018-03-21 09:32:30 · 7531 阅读 · 0 评论 -
python训练work2vec词向量实例(python gensim)
前期工作可参阅:1.python work2vec词向量训练可参考 https://blog.csdn.net/shuihupo/article/details/85156544词向量训练2.word2vec词向量中文语料处理(python gensim word2vec总结) 可参考 https://mp.csdn.net/postedit/85162237汇总数种语料加载方式。之前的...原创 2018-12-23 21:03:12 · 9595 阅读 · 13 评论