![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
自然语言处理
文章平均质量分 77
CIPCU
这个作者很懒,什么都没留下…
展开
-
自然语言处理(期末考点)
通常是在一个具体的属性上使用该方法,特别是离散值属性,比如下面的文本属性ocean_proximity。由上述信息可知,属性total_bedrooms的非空值有20433个,即空值有20640-20433=207个。轮廓系数(Silhouette Coefficient),[-1, 1],数值越大,聚类效果越好。位运算符:<< 左移, >> 右移, & 按位与, | 按位或, ^ 按位异或, ^ 按位取反。可以快速给出数据集的简单描述,具体包括:总行数、所有的属性名及其对应的值类型、非空值的数量等。原创 2023-10-30 11:04:55 · 1344 阅读 · 1 评论 -
word2vec词训练模型
假如["身高(cm)", "水果"]是一个数据集的属性列表,现有三个样本[170, "苹果"]、[171, "香蕉"]、[169, "桔子"],他们对应的数字化向量(170, 1),(171, 2),(169, 3),问与样本1最相似的样本是哪一个?实际上,样本2和样本3与样本1的相似度是相等的。【案例分析】对于句子“我们特别喜欢去北京”,若给定的中心词是“喜欢”,设定上下文窗口大小为2,则预测的上下文为[“我们”,“特别”,“去”,“北京”]。("我们","喜欢")("特别","喜欢")原创 2023-10-28 19:02:17 · 234 阅读 · 1 评论 -
基于词表的三种分词算法
基于词表的分词算法也成为基于规则的分词算法。请根据代码内容给程序加上适当的注释,并且分析出该段代码执行的功能,在文档中写出。添加代码,根据以上提供的分词算法,调用三种分词算法,完成“我在燕山大学读书,专业是软件工程。#代码包括定义词典,定义待分词变量,调用并且输出三种分词函数。请写出以下代码段执行工作。原创 2023-10-25 19:47:28 · 534 阅读 · 1 评论 -
自然语言处理问答系统实验报告
{'中国': 0, '首都': 13, '哪个': 3, '城市': 4, '今天': 1, '气温': 11, '多少度': 5, '天津': 6, '距离': 12, '北京': 2, '有多远': 9, '小明': 7, '正在': 10, '干什么': 8}['中国,的,首都,是,哪个,城市,?>>> vectorizer, q_tfidf = convert2tfidf(q_list) # vectorizer是一个向量化器。['北京市', '26度', '135公里', '在上课']原创 2023-10-24 21:00:16 · 382 阅读 · 0 评论 -
NLP简介
主要探讨如何让计算机“理解”人类语言NLU(Natural Language Understanding)、让计算机自动“生成”语言NLG(Natural Language Generation)。从自然语言文本中,抽取出特定的事件或事实信息,这些信息通常包括实体(Entity)、关系(Relation)、事件(Event)等。人类思考和交流的主要工具,通常是指一种自然地随文化演化的语言,如英语、汉语等。X acquired Y yesterday. X昨天收购了Y。这里的he指代的是Tom还是Mike。原创 2023-10-23 16:58:03 · 119 阅读 · 0 评论