爬虫
文章平均质量分 81
Penguinbupt
会飞的企鹅
展开
-
两种数据提取框架的比较(scrapy和webmagic)
两种数据提取框架的比较(scrapy和webmagic)原创 2022-11-24 15:54:56 · 1022 阅读 · 0 评论 -
Scrapy去重
背景: 要使用去重功能对重复的URL进行处理,避免重复劳动。目前有三种方式进行去重,第一种是使用Python语言自带的set集合数据结构进行自动去重,第二种是使用Redis中间件中的set集合进行去重,第三种是使用BloomFilter过滤器进行去重。第一种去重:使用Python自带的set集合数据结构进行自动去重。https://github.com/scrapy/scrapy我们查看源代码 scrapy/dupefilters.py/RFPDupeFilter类:...原创 2021-12-21 11:04:32 · 2989 阅读 · 0 评论 -
Python爬虫Scrapy的安装配置
用安装python模块出现error: command 'gcc' failed with exit status 1 ,然后是failed不是not found,这说明这个错误个gcc没多大关系,应该是缺少某些功能模块,然后谷歌了一下,先后安装了pip install python-devel,libffi-devel,openssl-devel原创 2015-05-19 00:17:57 · 543 阅读 · 0 评论 -
正则表达式
后向引用,引用的仅仅是文本内容,而不是正则表达式! 也就是说,组中的内容一旦匹配成功,后向引用,引用的就是匹配成功后的内容,引用的是结果,而不是表达式。 因此,(\d{1,3})(.\1){3}这个表达式实际上匹配的是四个数都相同的IP地址,比如:123.123.123.123。 至此,读者已经掌握了传说中的后向引用,就这么简单。原创 2015-06-08 16:11:06 · 418 阅读 · 0 评论 -
爬虫
最近在看Python爬虫的一些知识,写一篇博文记录下我们去网站抓取东西,一般需要3个东西,URL,DATA,headers以Python自带的库urllib,urllib2来进行举例,其他例如request第三方库请查看其他URL不说了,都知道url = 'http://bbs.byr.cn/user/ajax_login.json'传送DATA一共有两原创 2015-06-11 16:30:15 · 658 阅读 · 0 评论 -
urllib2的Openers和handlers
urllib2的两个重要的东西: Openers和HandlersOpeners: 默认的opener是urlopen Opener对象都有一个open方法Handlers: Openers使用处理器handlers,由它处理一些东西handler = urllib2.HTTPCookieProcessor(cookie)httpH原创 2015-06-11 16:59:20 · 1191 阅读 · 0 评论 -
Python小知识(重要)二
我们以内建的sys模块为例,编写一个hello的模块:#!/usr/bin/env python# -*- coding: utf-8 -*-' a test module '__author__ = 'Michael Liao'import sysdef test(): args = sys.argv if len(args)==1: pri转载 2015-06-16 01:12:01 · 424 阅读 · 0 评论 -
Python小知识学习(重要)
1 Python使用C语言开发,但是Python不再有C语言中的指针等复杂的数据类型。2 Python具有很强的面向对象特性,而且简化了面向对象的实现。它消除了保护类型、抽象类、接口等面向对象的元素。3 Python代码块使用空格或制表符缩进的方式分隔代码。4 Python仅有31个保留字,而且没有分号、begin、end等标记。5 Python是强类型语言,变量创转载 2015-06-16 00:11:10 · 479 阅读 · 0 评论