【python学习笔记】用正则表达式从含中文的网页中提取数据（含编码转换）

pzxzhy

于 2015-12-27 17:05:36 发布

阅读量5.6k

点赞数 2

文章标签：编码正则表达式 url python

本文链接：https://blog.csdn.net/pzxzhy/article/details/50413140

版权

本文详细记录了使用Python正则表达式从含有中文的网页中提取数据的过程，包括获取网页全部数据、查看网页、分析网页源代码以确定编码和要抓取的数据，以及编写正则表达式进行数据提取和最终的数据整合。

摘要由CSDN通过智能技术生成

目标：用正则表达式从含中文的网页中提取数据

1、获得网页全部数据

1.1思考过程

确定我们要操作的网页：url = 'http://q.stock.sohu.com/cn/603077/cwzb.shtml'
打开要操作的网页：req = urllib2.open(url)
读取网页，并将网页数据放入变量：html = req.read()
别忘了把网页关了：req.close()

1.2把以上过程写成函数：

def get_html(url):
	try:
		req = urllib2.open(url)
		html = req.read()
		return html
	finally:
		req.close()
html = get_html('http://q.stock.sohu.com/cn/603077/cwzb.shtml')

2、查看网页

2.1思考过程

因为不用会开发工具直接查看网页源代码，顺便为练习I/O，因此，打算把网页输出到TXT。
打开可写文件：file = open('C:/Users/YourName/Desktop/text.txt','w')
将网页数据写入文件：file.write(html)
别忘了把文件关了：file.close()

2.2把以上过程写成函数：

def out_put(file_name,content):
	try:
		file

最低0.47元/天解锁文章

pzxzhy

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫