python爬取大佬_Python大佬批量爬取中国院士信息,告诉你哪个地方人杰地灵

摘要

院士(Academician)源于Academy, Academy是古希腊传说中的一位拯救雅典免遭劫难而牺牲的英雄,属于科学及学术界的最高荣誉头衔。哪里盛产生院士?python爬虫告诉你。

背景调研

目前中国院士共有1500余人,其中科学院院士799人,工程院院士875人。科学院院士名单

http://www.casad.cas.cn/chnl/371/index.html

工程院院士名单

http://www.cae.cn/cae/html/main/col48/column_48_1.html

这里我以工程院院士信息抓取进行讲解。

工程院士出生地分布图

必备模块通过 pip 安装scrapy 爬虫框架模块

通过 pip 安装 jieba 分词模块

通过 pip 安装win32api

如果报ImportError: DLL load failed: 找不到指定的模块。 安装好后,把 D:\Python27_64\Lib\site-packages\pywin32_system32下的所有东西拷贝到C:\Windows\System32下面

爬虫流程

在E盘下面建立文件夹project_scrapy,建立爬虫项目 在E盘下面建立文件夹project_scrapy,进入该文件夹下面,打开cmd窗口,然后运行下面的命令搭建爬虫框架。 scrapy startproject engaca_spider目录树如下:

E:\project_scrapy>tree /f

卷 新加卷 的文件夹 PATH 列表

卷序列号为 00000001 7009:36A5

E:.

<
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值