基于同义词词林的文本相似度算法研究语料库

      本文是基于大学排行榜指标体系进行实验分析的,从指标体系中获取10个指标进行数据实验分析,数据的采集是使用2017年大学排名前100所高校的高校简介进行文本分析,下面是100所高校简介的链接地址:

编号高校  高校简介URL地址
1北京大学http://www.pku.edu.cn/about/index.htm
2清华大学http://www.tsinghua.edu.cn/publish/newthu/newthu_cnt/about/about-2.html
3武汉大学http://www.whu.edu.cn/xxgk/xxjj.htm
4复旦大学http://www.fudan.edu.cn/2016/channels/view/34/
5浙江大学http://www.zju.edu.cn/512/list.htm
6上海交通大学http://www.sjtu.edu.cn/xbdh/yjdh/gk/xxjj.htm
7南京大学https://xiaoban.nju.edu.cn/683/list.htm
8中国人民大学http://rucweb.sinaapp.com/resource
9吉林大学http://www.jlu.edu.cn/xxgk/jdjj.htm
10华中科技大学http://www.hust.edu.cn/755/list.htm
11四川大学http://www.scu.edu.cn/portal2013/gk/about/I080601index_1.htm
12中山大学http://www.sysu.edu.cn/2012/cn/zdgk/zdgk01/index.htm
13南开大学http://www.nankai.edu.cn/162/list.htm
14天津大学http://www.tju.edu.cn/tdgk/xxjj/
15中国科学技术大学http://www.ustc.edu.cn/xygk/xxjj/200508/t20050802_18737.html
16西安交通大学http://www.xjtu.edu.cn/jdgk/jdjj.htm
17中南大学http://www.csu.edu.cn/xxgk.htm
18哈尔滨工业大学http://www.hit.edu.cn/236/list.htm
19北京师范大学http://www.bnu.edu.cn/xxgk/xxjj/index.html
20山东大学http://www.sdu.edu.cn/2010/xxjj.html
21厦门大学http://www.xmu.edu.cn/about/xuexiaojianjie
22东南大学http://www.seu.edu.cn/2017/0531/c17410a190422/page.htm
23北京航空航天大学http://www.buaa.edu.cn/bhgk/xxjj/jrbh.htm
24同济大学http://www.tongji.edu.cn/about.html
25东北大学http://www.neu.edu.cn/intro_info.html
26大连理工大学http://www.dlut.edu.cn/xxgk/xxjj.htm
27华南理工大学http://www.scut.edu.cn/new/9015/list.htm
28华东师范大学http://www.ecnu.edu.cn/single/main.htm?page=ecnu
29电子科技大学http://www.uestc.edu.cn/?ch/11
30湖南大学http://www.hnu.edu.cn/html/hudagaikuang/xuexiaojianjie/
31重庆大学http://www.cqu.edu.cn/Channel/000-002-001-001/1/index.html
32西北工业大学http://www.nwpu.edu.cn/xxgk.htm
33中国农业大学http://www.cau.edu.cn/col/col10247/index.html
34兰州大学http://www.lzu.edu.cn/V2013/ldgk/ldjj/
35北京理工大学http://www.bit.edu.cn/gbxxgk/gbxqzl/xxjj/index.htm
36华中师范大学http://www.ccnu.edu.cn/hdgk/xxjj.htm
37西南大学http://www.swu.edu.cn/xxgl_jyjs.html
38东北师范大学http://www.nenu.edu.cn/253/list.htm
39南京农业大学http://www.njau.edu.cn/html/xxgk/xxjj/1.html
40北京交通大学http://www.njtu.edu.cn/xxgk/xxjj/index.htm
41西南交通大学http://www.swjtu.edu.cn/html/xxgk/1.html
42长安大学http://www.chd.edu.cn/346/list.htm
43武汉理工大学http://www.whut.edu.cn/2015web/xxgk/
44河海大学http://www.hhu.edu.cn/s/1/t/2655/p/11/c/425/d/436/list.htm
45华中农业大学http://www.hzau.edu.cn/2014/ch/about_hzau/brief/
46南京师范大学http://www.njnu.edu.cn/About/introduction.html
47郑州大学http://www.zzu.edu.cn/gaikuang.htm
48南京理工大学http://www.njust.edu.cn/3627/list.htm
49西安电子科技大学http://www.xidian.edu.cn/xxgk/xxjj.htm
50中国海洋大学http://www.ouc.edu.cn/xxjj/list.htm
51华东理工大学http://www.ecust.edu.cn/61/list.htm
52苏州大学http://www.suda.edu.cn/general_situation/xxjj.jsp
53南京航空航天大学http://www.nuaa.edu.cn/479/list.htm
54西北大学http://www.nwu.edu.cn/home/index/article/mid/724/id/161210.html
55中国矿业大学http://www.cumt.edu.cn/1069/list.htm
56北京科技大学http://www.ustb.edu.cn/xxgk/xxjj/index.htm
57北京协和医学院http://www.pumc.edu.cn/sample-page/%E9%99%A2%E6%A0%A1%E6%A6%82%E5%86%B5/
58上海大学http://www.shu.edu.cn/Default.aspx?tabid=10591
59南昌大学http://www.ncu.edu.cn/xxgk/xxjj.html
60西北农林科技大学http://www.nwsuaf.edu.cn/xxgk/xxjj1/index.htm
61湖南师范大学http://www.hunnu.edu.cn/xxgk/xxjj.htm
62云南大学http://www.ynu.edu.cn/ydgk/xxjj.htm
63哈尔滨工程大学http://www.hrbeu.edu.cn/xygk/xxjj.aspx
64华南师范大学http://www.scnu.edu.cn/a/20161025/1.html
65东华大学http://www.dhu.edu.cn/5943/list.htm
66上海财经大学http://www.shufe.edu.cn/38/list.htm
67陕西师范大学http://www.snnu.edu.cn/about.php?cat_id=1114
68中国政法大学http://www.cupl.edu.cn/xxgk/xxjj.htm
69暨南大学http://www.jnu.edu.cn/2561/list.htm
70北京邮电大学http://www.bupt.edu.cn/content/content.php?p=1_1_57
71江南大学http://www.jiangnan.edu.cn/xxgk/xxjj.htm
72合肥工业大学http://www.hfut.edu.cn/ch/html/xxgk.html
73北京化工大学http://www.buct.edu.cn/xxgknew/xxjjnew/index.htm
74中南财经政法大学http://www.zuel.edu.cn/about/
75福建师范大学https://www.fjnu.edu.cn/21/list.htm
76中国地质大学http://www.cug.edu.cn/new/001/002.html
77深圳大学http://www.szu.edu.cn/xxgk/xxjj.htm
78福州大学http://www.fzu.edu.cn/html/xxgk/1.html
79山西大学http://www.sxu.edu.cn/xxgk/xxjj/index.html
80西南财经大学http://www.swufe.edu.cn/1679.html
81广西大学http://www.gxu.edu.cn/Category_68/Index.aspx
82首都师范大学http://www.cnu.edu.cn/xxgk/xxjj/index.htm
83华南农业大学http://www.scau.edu.cn/gaikuang/
84北京工业大学http://www.bjut.edu.cn/xxgk/xxjj/15140.shtml
85北京林业大学http://www.bjfu.edu.cn/xxgk/57593.htm
86河南大学http://www.henu.edu.cn/html/xxgk/1.html
87昆明理工大学http://www.kmust.edu.cn/html/xxgk/xxjj/1.html
88燕山大学http://www.ysu.edu.cn/xxgk/xxjj.htm
89浙江工业大学http://www.zjut.edu.cn/ReadClassDetail.jsp?bigclassid=5&sid=80
90中央民族大学http://www.muc.edu.cn/survey/introduction.html
91中国石油大学http://www.cup.edu.cn/xxgk/xxjj/
92对外经济贸易大学http://www.uibe.edu.cn/xxgk/xxjs/index.htm
93浙江师范大学http://www.zjnu.edu.cn/3999/list.htm
94首都医科大学http://www.ccmu.edu.cn/art/2012/4/26/art_6444_35358.html
95安徽大学http://www.ahu.edu.cn/148/list.htm
96上海理工大学http://www.usst.edu.cn/s/1/t/471/p/17/c/346/d/365/list.htm
97南京工业大学http://www.njtech.edu.cn/Home/List/lists/mid/102.html
98天津师范大学http://www.tjnu.edu.cn/sdgk/sdjj.htm
99杭州电子科技大学http://www.hdu.edu.cn/introduction
100河北大学http://www.hbu.edu.cn/xxjj.jhtml
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
文本相似度是指通过计算两个文本之间的相似程度来衡量它们之间的语义相关性。在文本相似度计算中,常常会使用停用词来过滤掉一些常见的无意义词语,以提高计算的准确性和效率。 停用词是指在文本处理中被忽略的一类常见词语,例如英文中的"a"、"an"、"the"等,中文中的"的"、"了"、"是"等。这些词语通常在文本中频繁出现,但对于文本的语义理解并没有太大的帮助。 在Python中,有一些常用的库可以用于计算文本相似度和处理停用词,例如NLTK(Natural Language Toolkit)和gensim等。NLTK提供了一系列文本处理的功能,包括停用词的处理;而gensim则是一个专门用于处理文本语料库的库,其中也包含了停用词的处理功能。 以下是使用NLTK库和gensim库进行文本相似度计算和停用词处理的示例代码: 使用NLTK库: ```python import nltk from nltk.corpus import stopwords from nltk.tokenize import word_tokenize # 下载停用词 nltk.download('stopwords') nltk.download('punkt') # 加载停用词 stop_words = set(stopwords.words('english')) # 文本预处理 text1 = "This is a sample sentence." text2 = "This is another example sentence." # 分词 tokens1 = word_tokenize(text1) tokens2 = word_tokenize(text2) # 去除停用词 filtered_tokens1 = [word for word in tokens1 if word.lower() not in stop_words] filtered_tokens2 = [word for word in tokens2 if word.lower() not in stop_words] # 计算文本相似度 similarity = len(set(filtered_tokens1) & set(filtered_tokens2)) / len(set(filtered_tokens1) | set(filtered_tokens2)) print("文本相似度:", similarity) ``` 使用gensim库: ```python from gensim import corpora, models, similarities # 文本预处理 text1 = "This is a sample sentence." text2 = "This is another example sentence." # 分词 tokens1 = text1.lower().split() tokens2 = text2.lower().split() # 建立词典 dictionary = corpora.Dictionary([tokens1, tokens2]) # 构建语料库 corpus = [dictionary.doc2bow(tokens) for tokens in [tokens1, tokens2]] # 计算TF-IDF值 tfidf = models.TfidfModel(corpus) corpus_tfidf = tfidf[corpus] # 计算文本相似度 index = similarities.MatrixSimilarity(corpus_tfidf) similarity = index[corpus_tfidf] print("文本相似度:", similarity) ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值