Python之一些小知识点

1、json和字典类型的转换(json是服务器端的数据格式,字典是客服端的数据格式。所以在进行数据传输之后要进行格式转换)

#-*-coding:utf-8-*-
import json  #将json库导入

data = {
    "name":"cy",
    "id":"12353032"
}
res1 = json.dumps(data)  #通过dumps函数可以将字典类型转化成字符串类型
print type(res1)
print res1

data_json = '''{
    "name":"cy",
    "id":"12353032"
}'''
res2 = json.loads(data_json)  #通过loads函数可以将字符串类型转化成字典类型
print type(res2)
print res2["name"],res2["id"]

2、读文件:

# -*- coding: cp936 -*-
f = open("a.txt","r")
a = f.readline()
while a:
    print a
    a = f.readline()
#上面是按行读取文件,也可通过下面语句直接读取文件全部内容
# a = f.read()

3、正则表达式:

例如:

re1 = '<a href="(.*?)">'
#上面的字符串可匹配类似 <a href="XXXXXX"> 这种句法的字符串

re2 = 'aaa\d*bbb'
#上面的字符串可匹配以aaa开头,bbb结尾,中间是数字的字符串,类似 aaa13213121bb

简单的网页爬虫的例子:

#-*-coding:utf-8-*-
import re  #python中使用正则表达式需导入此库
import urllib2

url = "http://www.hao123.com"
res = urllib2.urlopen(url)
data = res.read()
#上面获取了hao123网页的网页源代码

href = 'href="(.*?)"'  #定义正则表达式的句法规则
href_re = re.compile(href)  #通过compile函数“编译”正则表达式
href_info = href_re.findall(data)  #通过findall函数,查找整个网页源代码的所有内容,返回的是所有匹配字符串组成的列表

for item in href_info:
    print item

Tip:

# -*- coding: utf-8 -*-  这个是Ubuntu系统下是python的文件格式。要是在windows系统下使用的话那就是# -*- coding: cp936 -*-这个很重要!


参考资料:

http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值