山东大学软件学院2018级项目实训
时间:2021年6月28日-6月29日
项目题目:基于关键词的语义泛化系统
1.小组任务分工
1.关键词提取:
根据语料提取关键词。
要求:
1)至少两种实现:利用jieba实现;另外再实现一种方法。
2)小组输出:将该模块功能封装为一个函数。输入:语料,输出:关键词
2.语义泛化:
查找、计算关键词的同义词。
要求:
1)最基础的利用腾讯800万词向量计算同义词,最好再实现至少其他一种方法。
2)小组输出:将该模块功能封装为一个函数。输入:关键词,输出:同义词
3.服务展现
将前面两个小组实现的算法以API方式呈现。
要求:
1)实现两个接口。接口一:输入语料、输出关键词。接口二:输入关键词、输出同义词。
2)API搭建框架Flask。
3)需要考虑并发情况,如何处理同时出现大量请求。
说实话,我对这个项目并不是十分了解,只是单纯对这个项目充满兴趣,认为可以对自己的能力库有一个拓展。我选择了语义泛化的功能实现。
2.任务需求获取以及查阅相关资料
1.任务目标分为基本任务与拓展任务
基本任务是基于特黁800万语料库的词向量计算同义词
拓展目标,利用机器学习,神经网络对模型进行优化
2.腾讯800万语料库的相关介绍
该语料库为超过 800 万个中文单词和短语提供 200 维向量表示,即嵌入,这些词和短语在大规模高质量数据上进行了预训练。这些向量,捕捉中文单词和短语的语义,可以广泛应用于许多下游的中文处理任务(例如,命名实体识别和文本分类)和进一步研究。摘自网页:https://ai.tencent.com/ailab/nlp/zh/embedding.html
3基本实现语义泛化的方法
原理
1、文本相似度计算的需求始于搜索引擎。
搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。
2、主要使用的算法是tf-idf
tf:term frequency 词频
idf:inverse document frequency 倒文档频率
主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
第一步:把每个网页文本分词,成为词包(bag of words)。
第三步:统计网页(文档)总数M。
第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf 为:n/N * 1/(m/M) (还有其它的归一化公式,这里是最基本最直观的公式)
第四步:重复第三步,计算出一个网页所有词的tf-idf 值。
第五步:重复第四步,计算出所有网页每个词的tf-idf 值。
3、处理用户查询
第一步:对用户查询进行分词。
第二步:根据网页库(文档)的数据,计算用户查询中每个词的tf-idf 值。
4、相似度的计算
使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小,越相似。
摘自:https://blog.csdn.net/weixin_30394333/article/details/98865362?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-4.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-4.control
3.下载安装相关应用
1.腾讯800万语料库
下载安装解压后,是15.5g的文件
显示文件太长,无法打开
2.pycharm以及python环境安装配置
摘自https://www.runoob.com/w3cnote/pycharm-windows-install.html
PyCharm 安装教程(Windows)
分类 编程技术
PyCharm 是一款功能强大的 Python 编辑器,具有跨平台性,鉴于目前最新版 PyCharm 使用教程较少,为了节约时间,来介绍一下 PyCharm 在 Windows下是如何安装的。
这是 PyCharm 的下载地址:http://www.jetbrains.com/pycharm/download/#section=windows
进入该网站后,我们会看到如下界面:
professional 表示专业版,community 是社区版,推荐安装社区版,因为是免费使用的。
1、当下载好以后,点击安装,记得修改安装路径,我这里放的是E盘,修改好以后,Next
2、接下来是
我们可以根据自己的电脑选择32位还是64位,目前应该基本都是64位系统吧
3、如下
点击Install,然后就是静静的等待安装了。如果我们之前没有下载有Python解释器的话,在等待安装的时间我们得去下载python解释器,不然pycharm只是一副没有灵魂的驱壳
4、进入python官方网站://www.python.org/
点击Downloads,进入选择下载界面
5、如下所示,选择我们需要的python版本号,点击Download
6、我选择的是python3.5.1,会看到如下界面
因为我们需要用到的是Windows下的解释器,所以在Operating System中可以选择对应的Windows版本,有64位和32位可以选择,我选择的是画红线的这个,executable表示可执行版,需要安装后使用,embeddable表示嵌入版,就是解压以后就可以使用的版本。
可执行版安装比较简单,一直默认就好了。embeddable需要注意,当我们解压这个也是需要解压到同一路径的,这里面放着pip、setuptools等工具,如果不解压,我们将无法在pycharm中更新模块,比如需要用到pymysql,就无法下载。虽然也能用,但是就是"阉割版"的python解释器了。
如果是embeddable版,记得把解释器所在的路径添加到环境变量里,不然pycharm无法自动获得解释器位置。
7、添加环境变量
(1)右键我的电脑,点击属性,弹出如下界面
(2)点击高级系统设置,出现下图
(3)点击环境变量
(4)找到系统变量里面的Path,编辑它,将python解释器所在路径粘贴到最后面,再加个分号。
环境变量配置结束
8、这时候Pycharm也装好了,我们进入该软件。
9、点击Create New Project,接下来是重点
Location是我们存放工程的路径,点击这个三角符号,可以看到pycharm已经自动获取了Python 3.5。
点击第一个我们可以选择Location的路径,比如
记住,我们选择的路径需要为空,不然无法创建,第二个Location不用动它,是自动默认的,其余不用点,然后点击Create。出现如下界面,这是Pycharm在配置环境,静静等待。最后点击close关掉提示就好了。
10、建立编译环境
右键点击New,选择Python File
给file取个名字,点击OK
系统会默认生成hello.py
好了,至此,我们的初始工作基本完成。