1、json和字典类型的转换(json是服务器端的数据格式,字典是客服端的数据格式。所以在进行数据传输之后要进行格式转换)
#-*-coding:utf-8-*-
import json #将json库导入
data = {
"name":"cy",
"id":"12353032"
}
res1 = json.dumps(data) #通过dumps函数可以将字典类型转化成字符串类型
print type(res1)
print res1
data_json = '''{
"name":"cy",
"id":"12353032"
}'''
res2 = json.loads(data_json) #通过loads函数可以将字符串类型转化成字典类型
print type(res2)
print res2["name"],res2["id"]
2、读文件:
# -*- coding: cp936 -*-
f = open("a.txt","r")
a = f.readline()
while a:
print a
a = f.readline()
#上面是按行读取文件,也可通过下面语句直接读取文件全部内容
# a = f.read()
3、正则表达式:
例如:
re1 = '<a href="(.*?)">'
#上面的字符串可匹配类似 <a href="XXXXXX"> 这种句法的字符串
re2 = 'aaa\d*bbb'
#上面的字符串可匹配以aaa开头,bbb结尾,中间是数字的字符串,类似 aaa13213121bb
简单的网页爬虫的例子:
#-*-coding:utf-8-*-
import re #python中使用正则表达式需导入此库
import urllib2
url = "http://www.hao123.com"
res = urllib2.urlopen(url)
data = res.read()
#上面获取了hao123网页的网页源代码
href = 'href="(.*?)"' #定义正则表达式的句法规则
href_re = re.compile(href) #通过compile函数“编译”正则表达式
href_info = href_re.findall(data) #通过findall函数,查找整个网页源代码的所有内容,返回的是所有匹配字符串组成的列表
for item in href_info:
print item
Tip:
# -*- coding: utf-8 -*- 这个是Ubuntu系统下是python的文件格式。要是在windows系统下使用的话那就是# -*- coding: cp936 -*-这个很重要!
参考资料:
http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html