NLP
NLP
白炎灵
又菜又爱玩儿
展开
-
snownlp情感分析
snownlp情感分析原创 2022-06-29 22:07:35 · 2436 阅读 · 0 评论 -
《NLP with Python》学习笔记(二)
性别鉴定# -*- coding: utf-8 -*-import nltkfrom nltk.corpus import namesimport randomdef gender_features(word): return {"last_letter": word[-1]}names = ([(name, "male") for name in names.words("male.txt")] + [(name, "female") for name in n原创 2021-11-24 22:29:51 · 696 阅读 · 0 评论 -
《NLP with Python》学习笔记(一)
文章目录绘制带条件的频率分布表评估词汇多样性分词自定义函数实现分词使用模拟退火算法的非确定搜索常用的基础函数绘制带条件的频率分布表#布朗语料库import nltkfrom nltk.corpus import brownbrown.categories()#带条件的频率分布函数cfd = nltk.ConditionalFreqDist( (genre,word) for genre in brown.categories() for word in brown.wo原创 2021-11-18 21:17:20 · 1494 阅读 · 0 评论 -
离线下载安装NLTK的nltk_data数据包
本来NLTK可以通过简单的nltk.download()下载所需要的文件,但是,这会出现网络问题,非常慢,甚至直接连不上。所以我们需要离线下载nltk_data。 一、下载数据文件 官方数据在https://github.com/nltk/nltk_data/tree/gh-pages中...转载 2021-11-13 11:59:39 · 2249 阅读 · 0 评论 -
中文分词与停用词的作用
首先什么是中文分词stop word?英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一...转载 2019-11-23 11:09:58 · 2754 阅读 · 0 评论 -
文本的向量化表示总结
1.词集模型:one-hot编码向量化文本(统计各词在文本中是否出现)2.词袋模型:文档中出现的词对应的one-hot向量相加(统计各词在文本中出现次数,在词集模型的基础上。)3.词袋模型+IDF:TFIDF向量化文本(词袋模型+IDF值,考虑了词的重要性)4.N-gram模型:考虑了词的顺序5.word2vec模型:使用文章中所有词的平均词向量作为文章的向量 1到5的出现是...转载 2019-12-05 14:55:30 · 2909 阅读 · 0 评论