网络爬虫主要是抓取指定的html网页后从获取到的网页中利用正则表达式提取我们需要的信息。Python给我提供了几个模块供我们使用,在源代码中可以看到它们的用法。
利用用python的urllib和urllib2模块实现网络爬虫比较简单:
a、写出合适的正则表达式
b、用urllib2的urlopen函数打开指定的网页并将网页内容读取到字符串中
c、用re模块的findall查找和正则表达式相匹配的内容、并将内容记录到list中
d、处理list中的数据
1.
网络爬虫主要是抓取指定的html网页后从获取到的网页中利用正则表达式提取我们需要的信息。Python给我提供了几个模块供我们使用,在源代码中可以看到它们的用法。
利用用python的urllib和urllib2模块实现网络爬虫比较简单:
a、写出合适的正则表达式
b、用urllib2的urlopen函数打开指定的网页并将网页内容读取到字符串中
c、用re模块的findall查找和正则表达式相匹配的内容、并将内容记录到list中
d、处理list中的数据
1.