爬虫，清洗，自己常使用的清洗办法。。。。

最新推荐文章于 2022-02-24 17:28:41 发布

临安初雨一夜落红

最新推荐文章于 2022-02-24 17:28:41 发布

阅读量1.3k

点赞数

分类专栏：爬虫-页面解析文章标签：马蜂窝清洗表情特殊字符

本文链接：https://blog.csdn.net/liumangjuntuan/article/details/93034544

版权

爬虫-页面解析专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1、deling_surplus_special_characters_to_json方法，用于删除每个字段的的特殊字符

2、过滤文章表情，主要用于爬取马蜂窝游记的时候使用的

# coding=utf-8
# author: bogger
# create: 2018-11-5
# version: 1.0
# 功能说明：
#           删除特殊字符
########################################################################################################
import sys
sys.path.append('/home/wangxiaobao/spider_bogger')
import re




def deling_surplus_special_characters_to_json(input_character):
    '''
    适用字符串，不适用html，字符串形式的数据存储，每个字段都要过这个方法，不然数据存储很容易出问题
    :param input_character:
    :return:
    '''
    output_character = input_character.strip().replace('\r\n', '').replace('\n', '').replace('\\', '')
    output_character = output_character.strip().replace('"', '')
    output_character = output_character.strip().replace("'", '"')
    output_character = output_character.strip().replace("/", "")
    output_character = output_character.strip().replace('\r\n', '').replace('\n', '').replace('\\', '')
    return output_character


def filter_emoji(filter_data_str, replace_content=''):
    '''
    过滤表情 
    :param desstr:
    :param restr:
    :return:
    '''

    try:
        co = re.compile(u'[\U00010000-\U0010ffff]')
        pass
    except re.error:
        co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')

        # nickname = highpoints.sub(u'', testdata)
    # return co.sub(restr, desstr)

    return co.sub(repl=replace_content, string=filter_data_str)