百度百科爬虫爬人物信息,主要是政治人物的部分信息。
部分代码适应性不高,需进一步修改。
并未设置自动化爬虫,只是对字段进行分类处理。
from bs4 import BeautifulSoup
import pandas as pd
import requests
import json
import time
import urllib
import re
from urllib.parse import quote
name_lt=pd.read_excel('名单.xlsx')
name_lt=list(name_lt['名单'])
final_result=[]
url='https://baike.baidu.com/item/'+name_lt[204]
url=quote(url, safe='/:?=')
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
soup=BeautifulSoup(data,"lxml")
soup_pr=soup.prettify()
fig_cv=soup.find_all("div",class_="lemma-summary")
fig_summary=fig_cv[0].text.strip('\n')
fig_info={}
fig_info['姓名']=fig_summary.split(',')[0].replace('[1]','')
fig_info['性别']=fig_summary.spli