nlp
AI小龘
藏浮心入苦海,孕德行掣云间
展开
-
(Python gensim+Word2Vec)实现文本相似度计算
# -*-encoding=utf-8-*-import jiebafrom gensim.models.word2vec import Word2Vec# jieba分词返回列表def jieba_cut(sent): sent1 = jieba.lcut(sent) return sent1# gensim-Word2Vec模型训练def word2vec1(sent1,sent2): sent1 = jieba_cut(sent1) sent2 = jie.原创 2021-10-22 22:54:05 · 2467 阅读 · 0 评论 -
(Python jieba+bow)实现文本相似度比较
# -*- encoding=utf-8 -*-import jieba.possegimport jieba.analyseimport mathimport re# jieba实现中文分词def jieba_function(input1): input1 = re.sub(r'\W*', '',input1) # jieba.load_userdict("dic.txt") jieba.analyse.set_stop_words("3.txt") # 词.原创 2021-10-12 23:46:28 · 597 阅读 · 0 评论 -
(Python re+collections)实现贝叶斯单词检查器
# -*-encoding:utf-8-*-import re,collections# 把语料库中的单词全部抽取出来,转成小写,并去除单词中间的特殊符号def words(text): return re.findall('[a-z]+',text.lower())def train(features): model = collections.defaultdict(lambda:1) for f in features: model[f] += 1 .原创 2021-10-11 23:37:39 · 166 阅读 · 0 评论 -
(Python tf-idf textrank)实现文章关键词提取
tf-idf(该文章该词词频/该文章总词数*(Log(文章总篇数/出现该词的文章数+1))偏词频提取# -*- coding:utf-8 -*-import jieba.analysestr_1 = "中央财政187.6亿保护草原生态,7月8日记者从财政部" \ "农业司获悉:2018年,中央财政安排新一轮草原生态保护" \ "补助奖励187.6亿元,支持实施禁牧面积12.06亿亩,草畜" \ "平衡面积26.05亿亩,并对工作突出、成效显著地区给予奖励"原创 2021-10-04 00:07:45 · 260 阅读 · 0 评论 -
(Python-jieba.posseg.cut)中文词性标注算法-我爱北京天安门
1.txt:我爱北京天安门 词性标注结果写入2.txt# -*- encoding:utf-8 -*-import jieba.posseg# 读取文档with open("1.txt",'r',encoding='utf-8')as f: words_2=jieba.posseg.cut(f.read()) # 进行词性标注# 标注完写入文档with open("2.txt",'w',encoding='utf-8')as f: for i in words_2: ..原创 2021-09-16 23:11:09 · 1107 阅读 · 0 评论 -
(Python实现中文分词最大匹配算法)研究生命的起源
正向进行中文分词匹配:# -*- coding: utf-8 -*-# 待分词语句str_1='研究生命的起源'# 最大长度M=3# 词典列表list_1=['研究','研究生','生命','命','的','起源']# 字符串载体list_2=['研','究','生','命','的','起','源']# 找到定位点list_3=[]for i in range(len(str_1)//M+1): list_3.append(0+i*M)# 找需匹配的切片进行匹配for原创 2021-09-13 21:15:19 · 467 阅读 · 0 评论 -
(Python+nlp)正则表达式:
——查询学习正则表达式原创 2021-09-11 15:42:16 · 48 阅读 · 0 评论