百度百科爬虫爬人物信息

最新推荐文章于 2022-04-30 20:15:19 发布

sallyyoung_sh

最新推荐文章于 2022-04-30 20:15:19 发布

阅读量2.6k

点赞数 2

分类专栏：机器学习——文本挖掘文章标签：百度爬虫百科 Python Beautifulsoup

本文链接：https://blog.csdn.net/sallyyoung_sh/article/details/78400575

版权

百度百科爬虫爬人物信息，主要是政治人物的部分信息。

部分代码适应性不高，需进一步修改。

并未设置自动化爬虫，只是对字段进行分类处理。

from bs4 import BeautifulSoup
import pandas as pd
import requests
import json
import time
import urllib
import re
from urllib.parse import quote
name_lt=pd.read_excel('名单.xlsx')
name_lt=list(name_lt['名单'])

final_result=[]

url='https://baike.baidu.com/item/'+name_lt[204]

url=quote(url, safe='/:?=')
data = urllib.request.urlopen(url).read()
data = data.decode('UTF-8')
soup=BeautifulSoup(data,"lxml")
soup_pr=soup.prettify()

fig_cv=soup.find_all("div",class_="lemma-summary")
fig_summary=fig_cv[0].text.strip('\n')
fig_info={}
fig_info['姓名']=fig_summary.split('，')[0].replace('[1]','')
fig_info['性别']=fig_summary.spli