IEEE论文搜索多单词关键字/关键词不被拆分的个性化搜索方法(IEEE的自定义搜索)

对于这个问题,我们有两个解决方案:自己写代码解决和IEEE自带的高级搜索。

目录

一.问题描述

二.高级搜索

三.自己动手,丰衣足食


一.问题描述

在IEEE搜索时,查找关键词时,若选择相关度

搜索后的文章是语义上较为接近的,但可能被引用量很低,对想要阅读经典的高引用文章的同学不太友好;若选择

可能搜索出来的结果引用量很高,但可能拆了我们的关键词,如我们搜索自监督学习(self-supervised learning),选择相关度,出来的第一个

 不是高引用文章;选择高引用,出来的第一个是这玩意,好像和自监督学习没啥关系~

二.高级搜索

 对于这种问题,有的同学说了,可以使用高级搜索

 于是我们实验了一下,先不带and,康康啥情况

第一页都是自监督学习,不拆分关键词完成~

 

 但是我们满怀着高兴的心情点了一下

第一篇又变成了这个,让人非常的高兴(doge)

 但如果我们把不想拆的关键词写到高级搜索and的两边

 第一篇又是这个,满足了要求

但是一旦点了

他,又来了!!

 所以高级搜索只能解决一部分问题,要想不拆关键词,还想要高引用,只能自己动手啦~

三.自己动手,丰衣足食

我们要做的就是导出搜索结果,使用pandas洗数据,然后......就没有然后了(doge)

一.导出数据

点这玩意儿

然后download

 

 如果下载有问题,emmmm,我就不知道啦(狗头保命)

不过这种小几百个的没啥问题,下载完了大概这样

 打开这个文件,上pandas,为了方便,把文件改名为ssl.csv(与某协议重名了)

import pandas as pd
import numpy as np

frame = pd.read_csv('ssl.csv')
print(frame.head())
print(frame.columns)

出来了我们的columns

 我们惊奇地发现,'Document Title','Author Affiliations','Article Citation Count', 'Patent Citation Count','Reference Count'正好是我们想要的,文档名,作者影响因子,被文章和专利引用数量和相关性。那还客气啥

head_picked_columns = ['Document Title','Author Affiliations','Article Citation Count', 'Patent Citation Count','Reference Count']
frame = frame[head_picked_columns]

后面的代码是对于self-supervised learning的搜索

a = 'self-supervised'
b = 'learning'
match_list_index = []
for i in frame.index:
    title = frame['Document Title'][i]
    title = title.lower()
    if (a in title) and (b in title):
        match_list_index.append(i)

result = frame.loc[match_list_index,:]

如果只想要不拆关键词,把result print一下就行啦~

但是对于追求完美的同学们,还要继续写有关引用的呀,我们希望对两个引用写一个排序

result['Article Citation Count'].fillna(0,inplace = True) #没有的话是nan,当然用0来填坑
result['Patent Citation Count'].fillna(0,inplace = True)

citation_count = result.sort_values(by = 'Article Citation Count')
citation_count['citation_sort'] = [i for i in range(len(citation_count.index))]

patent_citation_count = citation_count.sort_values(by = 'Patent Citation Count')
patent_citation_count['patent_citation_sort'] = [i for i in range(len(citation_count.index))]

出结果

reference_count = patent_citation_count
reference_count['all_sort'] =  reference_count['patent_citation_sort'] + reference_count['citation_sort']

result = reference_count.sort_values(by = 'all_sort',ascending = False)
document_title = result['Document Title']

print(document_title.head())

如果不写head,使用print大法的话

结果是这个,看着不错

-----------------------------分隔线-----------------------------------------

结语:本文中,我们使用pandas洗了导出数据,拿到了我们想要的结果

所以对于这个问题,两个解决方案

1.高级搜索,非常简单,但在按下载量排序那边翻车啦

2.自己导出数据然后数据清洗,虽然麻烦,但有效果

申明:虽然我比较菜,但代码是我自己写的啦,转的话加本文链接吧,喜欢的话点个免费的赞吧(白嫖怪震怒)

这个错误是由于无法连接到本地主机的10248端口导致的。这个端口通常是kubelet进程监听的端口,用于健康检查。出现这个错误可能是由于kubelet进程没有正确启动或者配置错误导致的。 解决这个问题的方法是检查kubelet进程的状态和配置。你可以按照以下步骤进行操作: 1. 检查kubelet进程是否正在运行。你可以使用以下命令检查kubelet进程的状态: ```shell systemctl status kubelet ``` 如果kubelet进程没有运行,你可以使用以下命令启动它: ```shell systemctl start kubelet ``` 2. 检查kubelet的配置文件。你可以使用以下命令查看kubelet的配置文件路径: ```shell kubelet --kubeconfig /etc/kubernetes/kubelet.conf --config /var/lib/kubelet/config.yaml --bootstrap-kubeconfig /etc/kubernetes/bootstrap-kubelet.conf config view ``` 确保配置文件中的端口号和地址正确,并且与你的环境相匹配。 3. 检查网络连接。你可以使用以下命令检查是否可以连接到localhost的10248端口: ```shell curl -sSL http://localhost:10248/healthz ``` 如果无法连接,请确保端口没有被防火墙或其他网络配置阻止。 4. 检查docker的配置。有时候,kubelet进程依赖于docker进程。你可以按照以下步骤检查docker的配置: - 创建/etc/docker目录: ```shell sudo mkdir /etc/docker ``` - 编辑/etc/docker/daemon.json文件,并添加以下内容: ```json { "exec-opts": ["native.cgroupdriver=systemd"], "log-driver": "json-file", "log-opts": { "max-size": "100m" }, "storage-driver": "overlay2", "storage-opts": [ "overlay2.override_kernel_check=true" ], "registry-mirrors": ["https://tdhp06eh.mirror.aliyuncs.com"] } ``` - 重启docker进程: ```shell systemctl restart docker ``` 请注意,以上步骤是一种常见的解决方法,但具体解决方法可能因环境而异。如果以上步骤无法解决问题,请提供更的错误信息和环境配置,以便我们能够更好地帮助你。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值