自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 Xrdp远程桌面链接登录ubuntu无法复制,解决方法

使用Xrdp远程桌面链接登录ubuntu后,出现无法在本地电脑和服务器之间复制粘贴,或是原先可以但突然失灵的情况,当你没有sudo权限时,可以尝试通过以下方式解决问题

2023-08-09 21:50:54 1606

原创 2021山东大学创新项目实训07

基于密度的离群点处理

2021-06-02 14:24:29 115

原创 2021山东大学创新项目实训06

对其他的网站的爬取的实现。

2021-06-01 22:00:45 108

原创 2021山东大学创新项目实训05

增加了对爬取到的论文信息整合进一个csv中并去除重复行的功能import pandas as pdimport osdata = pd.DataFrame()for info in os.listdir(r'.\data'): info = os.path.join(r'.\data', info) info = pd.read_csv(info, index_col=0) data = data.append(info, ignore_index=True)data

2021-04-21 21:21:58 87

原创 2021山东大学创新项目实训04

实现定时获取最新发表论文一、要点分析二、修改部分代码一、要点分析实现此功能的关键在于每次爬取时能够获取最新发表的文章,知网空间的搜索查询中提供了该功能使用如下代码点击会返回css查询器找不到对应属性的错误ul = driver.find_element_by_class_name("rank.left")trs = ul.find_elements_by_tag_name("a")for tr in trs: driver.find_elements_by_tag_name("tr").ge

2021-04-20 21:47:49 116

原创 2021山东大学创新项目实训03

目录一、内容更新二、出现的问题以及解决方案1.由于翻页速度过快导致的页面不能完全显示2.在切换关键词时导致的MaxRetryError:HTTPConnectionPool:最终爬取的数据量一、内容更新修改了crawl_page的部分逻辑,增加了对预先设定的关键词列表(content)的自动爬取,减少了由于反爬机制导致爬虫失败的概率同时修改了文件保存路径和保存数量,按照每爬取250页网站(约5000条)保存至本地csv一次共爬取约12w条数据def crawl_page(start, end, c

2021-04-20 15:36:47 129

原创 2021山东大学创新项目实训02

目录简述一、准备工作二、数据爬取1.chromeDriver设置2.页面元素定位总结简述本次实训的项目为知识图谱的构建,本阶段的个人工作为数据的爬取,本次爬取的网站为知网空间(https://search.cnki.com.cn/)使用的方法为selenium模拟浏览器操作的方式一、准备工作确保自己的电脑上安装有浏览器,并安装对应的webdrive(webdriver的版本号要与浏览器保持对应)本次使用的是chrome浏览器(版本 89.0.4389.114(正式版本) (64 位)),以及对应

2021-04-17 14:53:22 185

原创 2021山东大学创新项目实训01

知识图谱项目简述关于本应用前端开发数据抽取项目简述关于本应用知识图谱,是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。前端开发数据抽取...

2021-03-28 22:02:26 153

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除