百度百科基本信息栏数据爬取

最新推荐文章于 2024-08-31 18:51:53 发布

公众号【五元杂货铺】

最新推荐文章于 2024-08-31 18:51:53 发布

阅读量1k

点赞数

分类专栏：网页爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/qq_32284189/article/details/80000752

版权

本文介绍如何使用Python进行百度百科基本信息栏的数据爬取，通过实例代码详细解析爬虫实现过程，涵盖了网络请求、数据解析等关键步骤。

摘要由CSDN通过智能技术生成

一，代码实例

# coding=utf-8
import requests
from requests.exceptions import  RequestException
import re
import urllib
import pandas as pd

def get_http(name):
    '''用于配置链接
    在爬取的过程中需要对head字典中配置进行适配器设置，其中信息可以通过浏览器中获得
    而head存在的意义就是在爬取数据的时候，模拟浏览器去向服务器请求数据
    因为有些网站设置了反扒机制，所以在爬取不同网站时需要配置的参数是不同的，反扒做的越全面需要配置的信息越多
    对于百度百科，这几个参数就够了'''
    head={
        'User-Agent':'Mozilla/5.0 \
        (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 \
        (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'}
    url='https://baike.baidu.com/item/%s'%name
    html=requests.get(url,headers=head)
    html=html.content.decode('utf-8')
    return html

def get_one_moive(html):
    '''正则表达式匹配'''
    try:
        text1 = u'<dt class.*?>中文名.*?lass=