Python 爬虫：搜狗百科，爬取多个人名的属性表信息 pycharm selenium

小鞋带儿

于 2019-12-15 20:32:00 发布

阅读量2.1k

点赞数 1

文章标签： selenium python 数据分析

本文链接：https://blog.csdn.net/u011663673/article/details/103552987

版权

本文介绍了使用Python的selenium库爬取搜狗百科上的人名属性信息。通过PyCharm开发，团队成员包括小鞋带、小泽和阿烨。任务包括获取每个名字的第一个人物义项网址，提取其他义项链接，爬取每个义项的属性信息，并将结果保存为文本文件。实验结果显示，平均每个姓名查询耗时约3分钟。未来计划优化代码，增加界面，提升并行处理速度，以及进行数据清洗和结构优化等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

任务名称： 在搜狗百科上爬取一些人名的属性表信息
任务来源： 初学爬虫，牛刀小试
开发工具： PyCharm
开发团队： 213
开发人员： 小鞋带、小泽、阿烨
开发时间： 2019-12-15 20:00
任务说明： 多个人名，初步处理成文本文件，每个名字一行。对于每个名字，要求查找搜狗百科上所有同名义项，爬取每个义项页面中，人物属性列表中的属性信息
程序结构：
1、使用selenium 测试工具，查询得到每个名字的第一个人物义项的网址，输出链接列表。此步骤合并到一起完成，效率较高。
2、获取每个姓名的首个人物义项页面，提取其他义项的网址
3、调用函数，爬取每个义项属性表信息
4、按照人名创建文本文档，输出该姓名下所有人物义项的属性信息
试验效果：
爬取了国内最常见姓名的人物属性，每个姓名都有几百个人物义项，平均查询耗时每个姓名约3分钟。
后续改进：
1、此代码可进一步优化封装，增加可视界面、数据入库等功能
2、进一步提高并行处理速度
3、开展数据清洗、数据结构优化等工作，与其他百科信息进行对比分析
代码如下：