任务名称: 在搜狗百科上爬取一些人名的属性表信息
任务来源: 初学爬虫,牛刀小试
开发工具: PyCharm
开发团队: 213
开发人员: 小鞋带、小泽、阿烨
开发时间: 2019-12-15 20:00
任务说明: 多个人名,初步处理成文本文件,每个名字一行。对于每个名字,要求查找搜狗百科上所有同名义项,爬取每个义项页面中,人物属性列表中的属性信息
程序结构:
1、使用selenium 测试工具,查询得到每个名字的第一个人物义项的网址,输出链接列表。此步骤合并到一起完成,效率较高。
2、获取每个姓名的首个人物义项页面,提取其他义项的网址
3、调用函数,爬取每个义项属性表信息
4、按照人名创建文本文档,输出该姓名下所有人物义项的属性信息
试验效果:
爬取了国内最常见姓名的人物属性,每个姓名都有几百个人物义项,平均查询耗时每个姓名约3分钟。
后续改进:
1、此代码可进一步优化封装,增加可视界面、数据入库等功能
2、进一步提高并行处理速度
3、开展数据清洗、数据结构优化等工作,与其他百科信息进行对比分析
代码如下:
import urllib.request
from bs4 im