python beautifulsoup提取cdata数据

anyan1858

于 2018-08-14 11:00:00 发布

阅读量988

点赞数

文章标签： python

原文链接：http://www.cnblogs.com/lingLuoChengMi/p/9473313.html

版权

在进行爬虫实践时，遇到一个包含CDATA内容的网址，BeautifulSoup无法直接处理。通过查阅资料，发现两种解决方法：一种是直接获取CDATA节点，但可能遇到乱码问题；另一种方法是使用BeautifulSoup的get_text()。尽管如此，熟悉正则表达式的开发者可能仍会选择使用正则来提取数据。参考链接来自StackOverflow。

摘要由CSDN通过智能技术生成

最近在玩爬虫，遇到一个网址，里面的内容有个CDATA的数据，然后beautifulesoup就受挫了，但是正则又写不好，该怎么办呢？

查了下资料，找到了解析这种数据的方法

import requests
from bs4 import BeautifulSoup,CData
import re

def get_Response(_url):
    temp_response=requests.get(_url)
    #print(response.content.decode('utf-8'))
    temp_response.encoding='utf-8'