百度百科数据爬取 python 词条数据获取

最近需要补充一些电力名词的解释,尤其是文字相关内容。百度百科上的词条质量有差异,因此我们需要先手工选择一些高质量词条。

假设我们选择了互感器页面中的仪用变压器词条,首先:

import requests  
from bs4 import BeautifulSoup  
import time
import re
import random

接下来,解析获取到的response:

# 百度百科会增加一些字段,例如para_df21d,para_fr44h,需要识别
def has_para_content_mark(child_class):
    i=0
    for t in child_class:
        if t[0:5]=="para_": 
            i+=1
        if t[0:5]=="MARK_":
            i+=1
        if t[0:8]=="content_":
            i+=1
    return  i==3


# 百度百科会增加一些字段,例如text_sd55g4,text_fw92g,需要识别    
def has_text(child_class):
    i=0
    for t in child_class:
        if t[0:5]=="text_": 
            i+=1
    return  i==1
    
 # 爬取内容,并解析出开头的简介和正文内容   
def get_response(url):
    random_sleep_time = random.randint(100, 2000) / 1000.0  # 将毫秒转换为秒
    # 随机睡眠
    time.sleep(random_sleep_time)   
    print(url)
    # 发送HTTP请求并获取响应  
    response = requests.get(url)  
    
    contents=[]
    # 检查响应状态码,确保请求成功  
    if response.status_code == 200:  
        # 解析HTML内容  
        soup = BeautifulSoup(response.text, "html.parser")  

        # 找到class属性为"lemmaSummary_M04mg", "J-summary"的div元素  
        div_with_class_summary  = soup.find_all("div", class_=re.compile(r"\bJ-summary\b"))


        # 找到class属性为"J-lemma-content"的div元素  
        div_with_class = soup.find("div", class_="J-lemma-content")  
        
        
        # 使用find_all查找所有class属性中包含"J-summary"的div
        j_summary_divs = soup.find_all("div", class_=re.compile(r"\bJ-summary\b"))
        

        # 打印结果
        for div in j_summary_divs:
            # 找到所有在div_container中的span元素
            span_elements = div.find_all("span")
            tmp=""

            # 遍历所有span元素并输出内容
            for span in span_elements:
                
                if span.get("class") and has_text(span.get("class")):
                    tmp+=span.text
            contents.append(tmp)
            contents.append("\n")

        if div_with_class:  
            # 遍历div中的所有子元素  
            for child in div_with_class.descendants: 
                tmp_1=""
                # 检查子元素是否是span标签且class属性为"text_wRvkv"  
                if child.name == "div"  and child.get("class") and has_para_content_mark(child.get("class")):
                    # 打印span元素的文本内容  
                    for new_child in child.descendants: 
                        if new_child.name == "span" and new_child.get("class") and has_text(new_child.get("class")):
                            tmp_1+=new_child.text
                    contents.append(tmp_1)
                    contents.append("\n")    

                #  检查子元素是否是h2标签  
                elif child.name == "h2":  
                    # 打印h2标签的内容  
                    contents.append("####\n"+child.text+"\n")
                elif child.name == "h3":  
                    # 打印h2标签的内容  
                    contents.append("##"+child.text+"\n")
        return "".join(contents)
    
    else:  
        return "Failed to retrieve the{}.".format(url)

最后打印结果,发现可以复制词条中的主要内容,例如二级标题、三级标题和正文,以及每个百科最开始的概念介绍:

# 发送HTTP请求并获取响应  
url=r"https://baike.baidu.com/item/%E5%A4%AA%E9%98%B3%E8%83%BD%E5%85%89%E4%BC%8F%E5%8F%91%E7%94%B5/1158149?fromModule=lemma_inlink"
response = get_response(url) 
for content in contents:
    print(content)

解析效果如下(全文过长,这里只有部分):

光伏发电是根据光生伏特效应原理,利用太阳电池将太阳光能直接转化为电能。不论是独立使用还是并网发电,光伏发电系统主要由太阳电池板(组件)、控制器和逆变器三大部分组成,它们主要由电子元器件构成,但不涉及机械部件。所以,光伏发电设备极为精炼,可靠稳定寿命长、安装维护简便。理论上讲,光伏发电技术可以用于任何需要电源的场合,上至航天器,下至家用电源,大到兆瓦级电站,小到玩具,光伏电源可以无处不在。20221215日,入选中国工程院院刊《Engineering》发布“2022全球十大工程成就”。
####
分类
##发电模式
太阳能发电分光热发电和光伏发电。不论产销量、发展速度和发展前景、光热发电都赶不上光伏发电。可能因光伏发电普及较广而接触光热发电较少,通常民间所说的太阳能发电往往指的就是太阳能光伏发电,简称光电。
##输送方式
太阳能光伏发电分为独立光伏发电、并网光伏发电、分布式光伏发电

你也可以使用其他手段来避开反爬措施,但是我们的工作中,需要人工核验词条,因此采取了“把地址复制到excel中,爬虫批量爬取”的方法。你可以新建一个xlsx,然后新增两个列名“address”和“content”,然后运行:

import csv  
import pandas as pd  
  
# 读取CSV文件  
df = pd.read_excel(r'D:\data\百科词条2.xlsx')  
  
# 对第一列应用f1函数  
df["content"]= df.iloc[:, 0].apply(get_response)  
  
# 将结果写回到原文件中  
df.to_excel('D:\data\百科词条2.xlsx', index=False)

为避免爬虫,也可以采用“手工保存网页,然后解析html”的方式

  • 9
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
### 回答1: Python 是一种强大的编程语言,可以用来爬取网页数据并进行数据处理。本文将介绍如何使用 Python 爬取百度百科数据并构建三元组。 首先,我们需要安装 Python 的爬虫库 BeautifulSoup 和 requests。可以使用以下命令来安装这两个库: ```python pip install BeautifulSoup requests ``` 接下来,我们需要使用 requests 库发送 HTTP 请求,并使用 BeautifulSoup 库解析 HTML 页面。以下是一个简单的示例代码: ```python import requests from bs4 import BeautifulSoup url = 'https://baike.baidu.com/item/Python/407313' # 发送 HTTP 请求并获取网页内容 response = requests.get(url) content = response.text # 使用 BeautifulSoup 解析网页内容 soup = BeautifulSoup(content, 'html.parser') # 定位到百度百科词条正文内容 content_div = soup.find('div', {'class': 'lemma-summary'}) paragraphs = content_div.find_all('div', {'class': 'para'}) # 构建三元组 triples = [] for para in paragraphs: subject = 'Python' predicate = '介绍' object = para.text.strip() triple = (subject, predicate, object) triples.append(triple) # 打印三元组 for triple in triples: print(triple) ``` 在上述代码中,我们首先指定要爬取百度百科页面的 URL,并使用 requests 库发送 HTTP 请求获取网页内容。然后,我们使用 BeautifulSoup 库解析网页内容,并找到百度百科词条的正文内容。最后,我们遍历每个正文内容段落,构建三元组,并打印出来。 以上就是使用 Python 爬取百度百科数据构建三元组的简单示例。希望对你有帮助! ### 回答2: Python爬虫是一种通过代码自动化访问网页并提取信息的技术。在这个任务中,我们可以使用Python编写爬虫代码,从百度百科网页上提取数据并构建三元组。 首先,我们需要导入必要的Python库,例如requests和BeautifulSoup。使用requests库可以发送HTTP请求获取网页的源代码,而BeautifulSoup库可以方便地解析和提取网页中的数据。 接下来,我们可以使用requests库发送GET请求,将百度百科的URL作为参数传递给requests库。通过访问URL并获取到的网页源代码,我们可以使用BeautifulSoup库解析网页数据。 在百度百科网页中,通常会包含实体名称、实体定义和相关信息等内容。我们可以使用BeautifulSoup库根据HTML标签的属性和类名来定位到相关的标签位置,并提取所需的数据。 例如,如果我们想要构建一个以"实体名称-实体定义-相关信息"为三元组的数据结构,我们可以使用BeautifulSoup库定位到实体名称、实体定义和相关信息所对应的HTML标签,并将它们的内容提取出来。 最后,我们可以将提取到的数据保存到相应的数据结构中,例如列表和字典中,或者将其写入到文件中,以便后续的数据处理和分析。 总结起来,使用Python爬虫技术,我们可以很方便地从百度百科网页上提取数据并构建三元组。这个过程主要包括发送HTTP请求、解析网页数据,并将所需的数据提取并保存到相应的数据结构中。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值