爬虫,清洗,自己常使用的清洗办法。。。。

1、deling_surplus_special_characters_to_json方法,用于删除每个字段的的特殊字符

 

2、过滤文章表情,主要用于爬取马蜂窝游记的时候使用的

 

# coding=utf-8
# author: bogger
# create: 2018-11-5
# version: 1.0
# 功能说明:
#           删除特殊字符
########################################################################################################
import sys
sys.path.append('/home/wangxiaobao/spider_bogger')
import re




def deling_surplus_special_characters_to_json(input_character):
    '''
    适用字符串,不适用html,字符串形式的数据存储,每个字段都要过这个方法,不然数据存储很容易出问题
    :param input_character:
    :return:
    '''
    output_character = input_character.strip().replace('\r\n', '').replace('\n', '').replace('\\', '')
    output_character = output_character.strip().replace('"', '')
    output_character = output_character.strip().replace("'", '"')
    output_character = output_character.strip().replace("/", "")
    output_character = output_character.strip().replace('\r\n', '').replace('\n', '').replace('\\', '')
    return output_character


def filter_emoji(filter_data_str, replace_content=''):
    '''
    过滤表情 
    :param desstr:
    :param restr:
    :return:
    '''

    try:
        co = re.compile(u'[\U00010000-\U0010ffff]')
        pass
    except re.error:
        co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')

        # nickname = highpoints.sub(u'', testdata)
    # return co.sub(restr, desstr)

    return co.sub(repl=replace_content, string=filter_data_str)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值