在python上安装库
python字符串
print "num change:"+str(num)不能“dsd”+num
中文乱码问题
开头加一行
# -*- coding: UTF-8 -*-
字符串
word="abcdefg"
a=word[2]
print "a is: "+a
b=word[1:3]
print "b is: "+b
条件语句
x=int(raw_input("Please enter an integer:"))
if x<0:
x=0
print "x<0"
elif x==0:
print "x==0"
else:
print "x>0"
循环语句
for x in a:
print x, len(x)
定义函数
if a< b:
if b < c:
return "yes"
print sub(1,2,3)
文件IO
f=open(path,"w") # Opens file for writing.Creates this file doesn't exist.路径必须存在,文件可以不存在
f.write("ll.\n")
f.writelines("lim.")
f.close()
f=open(path,"r") # Opens file for reading
for line in f:
print line
f.close()
try:
text = file.readlines()//text读为List格式
for line in text:
jsonText = json.loads(line)
print type(jsonText)//loads将字符串转换成了dict类型
finally:
file.close()
text = file.readlines() for line in text[0:1]:#因为text是个List
将文件读取为json格式
数据格式
set
dataset = [['my', 'dog','dog','dog','dog','dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him','dog','dog','dog', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'dog','dog','dog','worthless', 'garbage'], ['mr', 'licks','dog','dog','dog', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying','dog','dog','dog', 'worthless', 'dog', 'food', 'stupid']] vocabSet = set() for doc in dataset: vocabSet |= set(doc) vocabList = list(vocabSet) print vocabSet
set(['cute', 'love', 'help', 'garbage', 'I', 'problems', 'is', 'park', 'stop', 'flea', 'dalmation', 'ate', 'food', 'not', 'him', 'buying', 'posting', 'quit', 'worthless', 'licks', 'how', 'maybe', 'please', 'dog', 'to', 'stupid', 'so', 'take', 'mr', 'steak', 'has', 'my'])
vocabSet |= set(doc)
集合的操作 这个是并集
上面代码可用于构造词袋
tuple元组
tup2 = (1, 2, 3, 4, 5, 6, 7 );
print "tup1[0]: ", tup1[0]
print "tup2[1:5]: ", tup2[1:5]
dict字典
Generator生成器
(引用自http://www.jb51.net/article/63929.htm)通过列表生成式,我们可以直接创建一个列表。但是,受到内存限制,列表容量肯定是有限的。而且,创建一个包含100万个元素的列表,不仅占用很大的存储空间,如果我们仅仅需要访问前面几个元素,那后面绝大多数元素占用的空间都白白浪费了。所以,如果列表元素可以按照某种算法推算出来,那我们是否可以在循环的过程中不断推算出后续的元素呢?这样就不必创建完整的list,从而节省大量的空间。在Python中,这种一边循环一边计算的机制,称为生成器(Generator)。