1、deling_surplus_special_characters_to_json方法,用于删除每个字段的的特殊字符
2、过滤文章表情,主要用于爬取马蜂窝游记的时候使用的
# coding=utf-8
# author: bogger
# create: 2018-11-5
# version: 1.0
# 功能说明:
# 删除特殊字符
########################################################################################################
import sys
sys.path.append('/home/wangxiaobao/spider_bogger')
import re
def deling_surplus_special_characters_to_json(input_character):
'''
适用字符串,不适用html,字符串形式的数据存储,每个字段都要过这个方法,不然数据存储很容易出问题
:param input_character:
:return:
'''
output_character = input_character.strip().replace('\r\n', '').replace('\n', '').replace('\\', '')
output_character = output_character.strip().replace('"', '')
output_character = output_character.strip().replace("'", '"')
output_character = output_character.strip().replace("/", "")
output_character = output_character.strip().replace('\r\n', '').replace('\n', '').replace('\\', '')
return output_character
def filter_emoji(filter_data_str, replace_content=''):
'''
过滤表情
:param desstr:
:param restr:
:return:
'''
try:
co = re.compile(u'[\U00010000-\U0010ffff]')
pass
except re.error:
co = re.compile(u'[\uD800-\uDBFF][\uDC00-\uDFFF]')
# nickname = highpoints.sub(u'', testdata)
# return co.sub(restr, desstr)
return co.sub(repl=replace_content, string=filter_data_str)