
自然语言处理
不良使
你无法游向新的地平线,除非你有勇气告别海滩
展开
-
自然语言处理---------jieba调整词频与词性标注
有些句子中出现了一些词语,但是被分开为两个单独的字,虽然这样可以调整词库,只需要重新加载自定义的词库即可,除此之外我们还可以用 ”调整词频来解决这个问题”import jiebaimport jieba.posseg as pg # 词性标注的包# 加载自定义字典jieba.load_userdict("./data/user_dic.txt")# 添加词jieba.add_word("石墨烯")jieba.add_word("凯特琳")# 删除词jieba.del原创 2022-04-09 03:30:00 · 1391 阅读 · 37 评论 -
自然语言处理--------jieba分词(文章中含有源码)
#TODO jieba 一个自然语言处理工具包 ,除了jieba还有 HanLP 和 LTKimport jieba#TODO 词、句 匹配#全模式seg_list=jieba.cut("我喜欢吃酸菜鱼",cut_all=True)print("全模式: "+"/".join(seg_list))seg_list_1=jieba.cut("物联网是大势所趋",cut_all=False)print(seg_list_1)print("全模式: "+"/"原创 2022-04-07 11:28:40 · 2314 阅读 · 24 评论 -
自然语言处理=======python利用word2vec实现计算词语相似度【gensim实现】
💥实验目的🚀1、要利用已训练过的词向量模型进行词语相似度计算,实验中采用的词向量模型已事先通过训练获取的。🚀2、于数据采用的是 2020 年特殊年份的数据,“疫情”是主要 话题。🚀3、在计算词语之间的相似度时,采用的词语与“疫情”相关💥实验内容🚀1、加载已训练的词向量模型,直接调用 models.word2vec.Word2Vec.load 加载模型 wiki.model。🚀2、计算多种形式的词语相似度🚀3、model 计算不同方法下的词语相似度**💥实验步骤**🚀1、加载模型原创 2022-03-29 09:20:39 · 7220 阅读 · 48 评论 -
FAQ 问答系统(新冠病毒/寝室)《《让电脑理解我说的话》》------更详细的了解和掌握自然语言知识(不再害怕面试~~~)=-------= 文章中含有源码分析
💋💋💋如何让电脑听懂我说的话,或者说看懂我输入的文字,这时候自然语言处理该上台了。🎁 背景在当下人力费用还是挺贵的,但是我们只要将所有的问题和答案放在后台或者数据库中,当需要询问 问题的用户在控制台输入需要询问的问题,代码会自己提取到用户输入的文字与数据库或者提前准备的文本中的问题进行相似度计算,最后提取相似度最高的问题的输出给用户。当然,当问题相似度低于一定程度是就会输出无法找到的答案。😘总结✨1、人工费高,机器费用低。✨2、查询问题不再死板,而是通过算法计算相似度。✨3、复用性高。✨4、更原创 2022-03-27 15:22:12 · 4093 阅读 · 144 评论 -
自然语言处理 之 文本热词提取--------文章中含有《源码》和《数据》,可以拿来玩玩
🎂主要就是通过jieba的posseg模块将一段文字分段并赋予不同字段不同意思。然后通过频率计算出热频词数据放在文章里面了,就不用花积分下载了**🐱🐉💋代码**# TODO 鸟欲高飞,必先展翅# TODO 向前的人 :Jhonimport jieba.posseg as psgtext=open("data/冬奥会评论区的数据.txt", "r", encoding="utf-8").read()text_psg=psg.l原创 2022-03-25 10:25:25 · 2147 阅读 · 39 评论 -
Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?)
ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 1 is different from 368)原创 2022-03-30 08:35:50 · 6677 阅读 · 16 评论 -
自然语言处理(中文分句)——————中文逆向最大匹配,文章中含有验证源码
首先准备一个txt文件,这是一个库。按行循环读取txt(库)中的字符串存入数组输入一句话,逆向进行数据字典比对,从后往前数n个字,n为数组中单个最大字符串一样则保留,在比较其他的class IMM(object): def __init__(self,dic_path): #给个这样子的集合 self.dictionary=set() #字典里面最大常数 for example :m=5 self.maximum=0原创 2022-03-22 12:10:24 · 823 阅读 · 34 评论 -
AttributeError: partially initialized module ‘jieba‘ has no attribute ‘cut‘ (most likely due to a ci
AttributeError: partially initialized module 'jieba' has no attribute 'cut' (most likely due to a circular import)遇到这个问题时真是被自己傻哭了,就是文件名和库名一致了,将文件名换一个名字就可以了Traceback (most recent call last): File "S:/Study/picture processing/mt/NaturalLanguageProcessio原创 2022-03-02 10:17:01 · 3410 阅读 · 6 评论