具体介绍请参考: 微博数据清洗(Java版)
本文是Python版本的介绍,只有数据清洗部分不含对Excel的操作,包含去除html标签和去掉信息里的url地址。
Python的代码相对java简明了太多
# -*- coding: UTF-8 -*-
'''
Created on 2013年12月10日
@author: daT dev.tao@gmail.com
'''
import re
def dealHtmlTags(html):
'''
去掉html标签
'''
from HTMLParser import HTMLParser
html=html.strip()
html=html.strip("\n")
result=[]
parse=HTMLParser()
parse.handle_data=result.append
parse.feed(html)
parse.close()
return "".join(result)
def dealUrl(text):
'''
去掉微博信息中的url地址
'''
return re.sub('''http[s]?://(?:[a-zA-Z]|[0-9]|[$-_@.&+]|[!*\(\),]|(?:%[0-9a-fA-F][0-9a-fA-F]))+''', '',text)
if __name__== "__main__":
html = """接下来一年,我希望在<SPAN style="COLOR: red">惠普</SPAN>电脑看到更人性化,各科技化的东西,更能提升视觉享受的东西。 地址:<A title=http://t.cn/8kUAX2z href="http://t.cn/8kUAX2z" target=_blank suda-data="key=tblog_search_v4.1&value=weibo_feed_url" :3651215114310513>http://t.cn/8kUAX2z<SPAN class=feedico_active></SPAN></A>
"""
html = dealHtmlTags(html)
print dealUrl(html)