目标:用正则表达式从含中文的网页中提取数据
1、获得网页全部数据
1.1思考过程
确定我们要操作的网页:url = 'http://q.stock.sohu.com/cn/603077/cwzb.shtml'打开要操作的网页:req = urllib2.open(url)
读取网页,并将网页数据放入变量:html = req.read()
别忘了把网页关了:req.close()
1.2把以上过程写成函数:
def get_html(url):
try:
req = urllib2.open(url)
html = req.read()
return html
finally:
req.close()
html = get_html('http://q.stock.sohu.com/cn/603077/cwzb.shtml')
2、查看网页
2.1思考过程
因为不用会开发工具直接查看网页源代码,顺便为练习I/O,因此,打算把网页输出到TXT。打开可写文件:file = open('C:/Users/YourName/Desktop/text.txt','w')
将网页数据写入文件:file.write(html)
别忘了把文件关了:file.close()
2.2把以上过程写成函数:
def out_put(file_name,content):
try:
file