百度百科爬虫爬人物信息

百度百科爬虫爬人物信息,主要是政治人物的部分信息。

部分代码适应性不高,需进一步修改。

并未设置自动化爬虫,只是对字段进行分类处理。



from bs4 import BeautifulSoup
import pandas as pd
import requests
import json
import time
import urllib
import re
from urllib.parse import quote
name_lt=pd.read_excel('名单.xlsx')
name_lt=list(name_lt['名单'])

final_result=[]

url='https://baike.baidu.com/item/'+name_lt[204]

url=quote(url, safe='/:?=')
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
soup=BeautifulSoup(data,"lxml")
soup_pr=soup.prettify()

fig_cv=soup.find_all("div",class_="lemma-summary")
fig_summary=fig_cv[0].text.strip('\n')
fig_info={}
fig_info['姓名']=fig_summary.split(',')[0].replace('[1]','')
fig_info['性别']=fig_summary.spli
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值