数据分析
文章平均质量分 73
小裘HUST
最好的程序员做自己的硬件
展开
-
ESI文章详细信息获取
每次ESI数据更新之后,有些文章是热点文章,有些文章是研究前沿,就如下图中的红框标示出来的一样。但这部分数据,主要是研究前沿的文章,在ESI导出的数据中看不到。所以需要想办法获取这部分数据。 观察发现,每次翻页,都会有下面这样的一个请求包被发送,并获得json格式的数据,因此我们只要照着它的请求方式发送请求,就能获得相应的数据。# esi_article_info.pyimport requestsimport timeimport pandas as pdfrom selenium原创 2021-12-11 13:41:37 · 1524 阅读 · 1 评论 -
利用pandas实现合作次数统计
最近有一个需求,就是我有一列数据,这列数据中的每一行表示完成某一项目的所有单位,我想统计这一列数据中,不同单位两两之间的合作次数。数据格式如下:a;a;b;ca;c;b;d;eb;f;g;h;i;ja;g;ha;kd;l;ma;c;g 上面的每个字母都表示单位名称,不同单位之间用“;”隔开。实现功能的代码如下:# gen_matrix.pyimport pandas as pd# 将原始数据存在list.txt文件中,并且放在和这一脚本文件相同的目录下fp_list原创 2021-12-10 20:02:36 · 1169 阅读 · 1 评论 -
QS世界大学综合排名与学科排名数据获取
QS世界大学排名有两个官方的网站,一个是国际网站,另一个是国内网站,上面的数据应该都是一样的,只是一个是英文,一个是中文。综合排名 qsChina,也就是国内网站上的QS排名数据获取相对比较方便,因为它可以选择每页显示所有数据,而国际网站上的那个则每页最多100条数据。虽然有这样的问题,但我最后还是选择国际网站上的数据,因为有些大学的中文翻译很奇怪。 我主要采用的还是selenium,这个虽然很慢,但是比较稳定。#encoding=utf-8from selenium.webdriver原创 2021-10-28 10:13:50 · 882 阅读 · 0 评论 -
THE、软科世界大学排名数据获取
THE大学排名 THE大学排名的数据比较容易获取,THE大学排名2022,所有数据都可以在这一个网页中找到。“any subject”下拉菜单中可以选择不同学科,如果不选的话那就是综合排名;不需要翻页,一页就是一个学科;每种学科(包括综合排名)排名都可以写入一个excel中;每种学科排名有两个标签栏中的数据需要获取,一个是“Rankings”,一个是“Scores”。 遇到的问题是,“any subject”的“select”是不可见的,所以不能用selemium的Select方法,解原创 2021-11-09 21:44:29 · 839 阅读 · 0 评论 -
US News大学排名数据获取
US News的大学排名数据获取有一点点复杂。US News 2022 Best Global Universities Rankings网页是动态刷新的,数据量也比较大。#encoding=utf-8import requestsimport timefp = open('collegeInfo.txt', 'w', encoding='utf-8')headers = { 'User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x原创 2021-11-10 21:01:36 · 879 阅读 · 0 评论 -
微信公众号文章信息(阅读量、在看、点赞数)获取
实现这一个功能主要用到了selenium、mitmproxy和wechatarticles,利用selenium可以实现脚本模拟浏览器访问,mitmproxy配合wechatarticles获取文章信息。参考文章:记一次微信公众号爬虫的经历(微信文章阅读点赞的获取)微信公众号文章全自动采集(使用mitmproxy抓包,然后用pywinauto实现自动点击)微信app_msg动态获取selenium selenium有一个官网,建议通过官网的教程入门。Getting Started主要有两步(原创 2021-10-27 20:45:05 · 8328 阅读 · 4 评论