python
ezLeo
真正的大师永远怀着一颗学徒的心
展开
-
python爬取csdn的博客内容
首先说明爬虫的大体结构可以通用,不过针对字符串的匹配是不能通用的,比如你用爬取csdn的代码想去爬取博客园就是不行的了,因为爬取的字符是根据对应的html内容设置的。使用python构建爬虫程序有一个简单的套路,我总结为3步走:1.re.compile设置查找的字符串样式2.page = urllib.urlopen打开网页,page.read读取网页内容3.re.search/r原创 2017-07-16 23:59:29 · 3077 阅读 · 0 评论 -
python多线程爬虫学习--Queue
Queue是python多线程安全的队列实现,封装了数据结构中的队列,保证了线程之间使用队列同步数据不会出错。也就是说使用Queue就不用使用锁去同步数据。Queue默认构造的大小是无限的,也可以在初始化时指定队列大小:Queue q(10)Queue的使用函数:get():获取队列头部元素,并且把队列中该元素弹出put(元素):插入元素到队列尾部qsize()原创 2017-08-19 14:18:28 · 809 阅读 · 0 评论 -
python多线程爬虫学习--去除html的标签
import reimport urllibpage = urllib.urlopen("http://www.baidu.com")html = page.read()pattern = re.compile(r']+>', re.S)result = pattern.sub('', html)print resultre.compile返回的是一个正则的表达的原创 2017-08-16 00:29:16 · 4461 阅读 · 0 评论 -
python多线程爬虫学习--去除字符串中间空格
python去除字符串中间空格的方法1、使用字符串函数replace>>> a = 'hello world'>>> a.replace(' ', '')'helloworld'12341234看上这种方法真的是很笨。2、使用字符串函数split>>> a = ''.join(a.split())>>> print(a)helloworld1234123转载 2017-08-16 00:07:12 · 3185 阅读 · 0 评论