1、itertools,
提供了非常有用的用于操作迭代对象的函数。
几个“无限”迭代器count()、cycle()、repeat()
通常我们会通过takewhile()
等函数根据条件判断来截取出一个有限的序列:
>>> natuals = itertools.count(1)
>>> ns = itertools.takewhile(lambda x: x <= 10, natuals)
>>> list(ns)
[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
chain()
可以把一组迭代对象串联起来,形成一个更大的迭代器;groupby()
把迭代器中相邻的重复元素挑出来放在一起。
练习:
def pi(N):
' 计算pi的值 '
# step 1: 创建一个奇数序列: 1, 3, 5, 7, 9, ...
# step 2: 取该序列的前N项: 1, 3, 5, 7, 9, ..., 2*N-1.
# step 3: 添加正负符号并用4除: 4/1, -4/3, 4/5, -4/7, 4/9, ...
# step 4: 求和:
na = itertools.count(1, 2)
ns = list(itertools.takewhile(lambda x: x <2*N, na))
sum=0
for i in ns:
if i%4==1:
sum=sum+4/i
else:
sum=sum-4/i
return sum
@contextlib:装饰器有助于上下文管理。上下文管理器是:有一个特殊的语句块,在执行这个语句块之前需要先执行一些准备动作;当语句块执行完成后,需要继续执行一些收尾动作。
urllib:提供了一系列用于操作URL的功能。urllib提供的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器完成特定功能,需要把请求伪装成浏览器。伪装的方法是先监控浏览器发出的请求,再根据浏览器的请求头来伪装,User-Agent
头就是用来标识浏览器的。
XML:操作XML有两种方法:DOM和SAX。DOM会把整个XML读入内存,解析为树,因此占用内存大,解析慢,优点是可以任意遍历树的节点。SAX是流模式,边读边解析,占用内存小,解析快,缺点是我们需要自己处理事件。
正常情况下,优先考虑SAX,因为DOM实在太占内存。
利用HTMLParser,可以把网页中的文本、图像等解析出来
这一部分:暂时看不懂,编程不会==。。。预备参考学习教程http://www.w3school.com.cn/h.asp之后,再次编写程序。