Python 爬虫 :搜狗百科,爬取多个人名的属性表信息 pycharm selenium

本文介绍了使用Python的selenium库爬取搜狗百科上的人名属性信息。通过PyCharm开发,团队成员包括小鞋带、小泽和阿烨。任务包括获取每个名字的第一个人物义项网址,提取其他义项链接,爬取每个义项的属性信息,并将结果保存为文本文件。实验结果显示,平均每个姓名查询耗时约3分钟。未来计划优化代码,增加界面,提升并行处理速度,以及进行数据清洗和结构优化等。
摘要由CSDN通过智能技术生成

任务名称: 在搜狗百科上爬取一些人名的属性表信息
任务来源: 初学爬虫,牛刀小试
开发工具: PyCharm
开发团队: 213
开发人员: 小鞋带、小泽、阿烨
开发时间: 2019-12-15 20:00
任务说明: 多个人名,初步处理成文本文件,每个名字一行。对于每个名字,要求查找搜狗百科上所有同名义项,爬取每个义项页面中,人物属性列表中的属性信息
程序结构:
1、使用selenium 测试工具,查询得到每个名字的第一个人物义项的网址,输出链接列表。此步骤合并到一起完成,效率较高。
2、获取每个姓名的首个人物义项页面,提取其他义项的网址
3、调用函数,爬取每个义项属性表信息
4、按照人名创建文本文档,输出该姓名下所有人物义项的属性信息
试验效果:
爬取了国内最常见姓名的人物属性,每个姓名都有几百个人物义项,平均查询耗时每个姓名约3分钟。
后续改进:
1、此代码可进一步优化封装,增加可视界面、数据入库等功能
2、进一步提高并行处理速度
3、开展数据清洗、数据结构优化等工作,与其他百科信息进行对比分析
代码如下:

import urllib.request
from bs4 im
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值