【python学习笔记】用正则表达式从含中文的网页中提取数据(含编码转换)

目标:用正则表达式从含中文的网页中提取数据1、获得网页全部数据1.1思考过程确定我们要操作的网页:url = 'http://q.stock.sohu.com/cn/603077/cwzb.shtml'打开要操作的网页:req = urllib2.open(url)读取网页,并将网页数据放入变量:html = req.read()别忘了把网页关了:req.close()
摘要由CSDN通过智能技术生成

目标:用正则表达式从含中文的网页中提取数据

1、获得网页全部数据

1.1思考过程

确定我们要操作的网页:url = 'http://q.stock.sohu.com/cn/603077/cwzb.shtml'
打开要操作的网页:req = urllib2.open(url)
读取网页,并将网页数据放入变量:html = req.read()
别忘了把网页关了:req.close()

1.2把以上过程写成函数:

def get_html(url):
	try:
		req = urllib2.open(url)
		html = req.read()
		return html
	finally:
		req.close()
html = get_html('http://q.stock.sohu.com/cn/603077/cwzb.shtml')


2、查看网页

2.1思考过程

因为不用会开发工具直接查看网页源代码,顺便为练习I/O,因此,打算把网页输出到TXT。
打开可写文件:file = open('C:/Users/YourName/Desktop/text.txt','w')
将网页数据写入文件:file.write(html)
别忘了把文件关了:file.close()

2.2把以上过程写成函数:

def out_put(file_name,content):
	try:
		file 
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值