山东大学2018级项目实训2021-06-29

山东大学软件学院2018级项目实训

时间:2021年6月28日-6月29日
项目题目:基于关键词的语义泛化系统

1.小组任务分工

1.关键词提取:
根据语料提取关键词。
要求:
1)至少两种实现:利用jieba实现;另外再实现一种方法。
2)小组输出:将该模块功能封装为一个函数。输入:语料,输出:关键词

2.语义泛化:
查找、计算关键词的同义词。
要求:
1)最基础的利用腾讯800万词向量计算同义词,最好再实现至少其他一种方法。
2)小组输出:将该模块功能封装为一个函数。输入:关键词,输出:同义词

3.服务展现
将前面两个小组实现的算法以API方式呈现。
要求:
1)实现两个接口。接口一:输入语料、输出关键词。接口二:输入关键词、输出同义词。
2)API搭建框架Flask。
3)需要考虑并发情况,如何处理同时出现大量请求。

说实话,我对这个项目并不是十分了解,只是单纯对这个项目充满兴趣,认为可以对自己的能力库有一个拓展。我选择了语义泛化的功能实现。

2.任务需求获取以及查阅相关资料

1.任务目标分为基本任务与拓展任务
基本任务是基于特黁800万语料库的词向量计算同义词
拓展目标,利用机器学习,神经网络对模型进行优化
2.腾讯800万语料库的相关介绍
该语料库为超过 800 万个中文单词和短语提供 200 维向量表示,即嵌入,这些词和短语在大规模高质量数据上进行了预训练。这些向量,捕捉中文单词和短语的语义,可以广泛应用于许多下游的中文处理任务(例如,命名实体识别和文本分类)和进一步研究。摘自网页:https://ai.tencent.com/ailab/nlp/zh/embedding.html
3基本实现语义泛化的方法
原理
1、文本相似度计算的需求始于搜索引擎。
搜索引擎需要计算“用户查询”和爬下来的众多”网页“之间的相似度,从而把最相似的排在最前返回给用户。
2、主要使用的算法是tf-idf
tf:term frequency 词频
idf:inverse document frequency 倒文档频率
主要思想是:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
第一步:把每个网页文本分词,成为词包(bag of words)。
第三步:统计网页(文档)总数M。
第三步:统计第一个网页词数N,计算第一个网页第一个词在该网页中出现的次数n,再找出该词在所有文档中出现的次数m。则该词的tf-idf 为:n/N * 1/(m/M) (还有其它的归一化公式,这里是最基本最直观的公式)
第四步:重复第三步,计算出一个网页所有词的tf-idf 值。
第五步:重复第四步,计算出所有网页每个词的tf-idf 值。
3、处理用户查询
第一步:对用户查询进行分词。
第二步:根据网页库(文档)的数据,计算用户查询中每个词的tf-idf 值。
4、相似度的计算
使用余弦相似度来计算用户查询和每个网页之间的夹角。夹角越小,越相似。
摘自:https://blog.csdn.net/weixin_30394333/article/details/98865362?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-4.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromMachineLearnPai2%7Edefault-4.control

3.下载安装相关应用

1.腾讯800万语料库
下载安装解压后,是15.5g的文件
在这里插入图片描述显示文件太长,无法打开
在这里插入图片描述

2.pycharm以及python环境安装配置
摘自https://www.runoob.com/w3cnote/pycharm-windows-install.html

PyCharm 安装教程(Windows)
分类 编程技术

PyCharm 是一款功能强大的 Python 编辑器,具有跨平台性,鉴于目前最新版 PyCharm 使用教程较少,为了节约时间,来介绍一下 PyCharm 在 Windows下是如何安装的。

这是 PyCharm 的下载地址:http://www.jetbrains.com/pycharm/download/#section=windows

进入该网站后,我们会看到如下界面:
在这里插入图片描述

professional 表示专业版,community 是社区版,推荐安装社区版,因为是免费使用的。
在这里插入图片描述

1、当下载好以后,点击安装,记得修改安装路径,我这里放的是E盘,修改好以后,Next

2、接下来是
在这里插入图片描述

我们可以根据自己的电脑选择32位还是64位,目前应该基本都是64位系统吧

3、如下
在这里插入图片描述

点击Install,然后就是静静的等待安装了。如果我们之前没有下载有Python解释器的话,在等待安装的时间我们得去下载python解释器,不然pycharm只是一副没有灵魂的驱壳

4、进入python官方网站://www.python.org/

点击Downloads,进入选择下载界面

5、如下所示,选择我们需要的python版本号,点击Download

6、我选择的是python3.5.1,会看到如下界面

因为我们需要用到的是Windows下的解释器,所以在Operating System中可以选择对应的Windows版本,有64位和32位可以选择,我选择的是画红线的这个,executable表示可执行版,需要安装后使用,embeddable表示嵌入版,就是解压以后就可以使用的版本。

可执行版安装比较简单,一直默认就好了。embeddable需要注意,当我们解压这个也是需要解压到同一路径的,这里面放着pip、setuptools等工具,如果不解压,我们将无法在pycharm中更新模块,比如需要用到pymysql,就无法下载。虽然也能用,但是就是"阉割版"的python解释器了。

如果是embeddable版,记得把解释器所在的路径添加到环境变量里,不然pycharm无法自动获得解释器位置。

7、添加环境变量

(1)右键我的电脑,点击属性,弹出如下界面

(2)点击高级系统设置,出现下图

(3)点击环境变量

(4)找到系统变量里面的Path,编辑它,将python解释器所在路径粘贴到最后面,再加个分号。

环境变量配置结束

8、这时候Pycharm也装好了,我们进入该软件。

9、点击Create New Project,接下来是重点

Location是我们存放工程的路径,点击这个三角符号,可以看到pycharm已经自动获取了Python 3.5。

点击第一个我们可以选择Location的路径,比如

记住,我们选择的路径需要为空,不然无法创建,第二个Location不用动它,是自动默认的,其余不用点,然后点击Create。出现如下界面,这是Pycharm在配置环境,静静等待。最后点击close关掉提示就好了。

10、建立编译环境

右键点击New,选择Python File

给file取个名字,点击OK

系统会默认生成hello.py

好了,至此,我们的初始工作基本完成。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值