我正在尝试从这个网站获取代码:http://netherkingdom.netai.net/pycake.html
然后我用一个python脚本解析html div标记中的所有代码,最后将div标记之间的文本写到一个文件中。问题是它在文件中添加了一组\r和\n。如何避免此问题,或者删除和。下面是我的代码:import urllib.request
from html.parser import HTMLParser
import re
page = urllib.request.urlopen('http://netherkingdom.netai.net/pycake.html')
t = page.read()
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print(data)
f = open('/Users/austinhitt/Desktop/Test.py', 'r')
t = f.read()
f = open('/Users/austinhitt/Desktop/Test.py', 'w')
f.write(t + '\n' + data)
f.close()
parser = MyHTMLParser()
t = t.decode()
parser.feed(t)
这是它生成的结果文件:b'
import time as t\r\n
from os import path\r\n
import os\r\n
\r\n
\r\n
\r\n
\r\n
\r\n'
最好我也希望有开始b'和最后一个'删除。我在Mac上使用Python3.5.1。