1.新浪微博wap站,结构简单,速度应该会比较快,而且反扒没那么强,缺点是信息量会稍微缺少一些
2.
- 主要使用 scrapy 爬虫框架。
- 下载中间件会从Cookie池和User-Agent池中随机抽取一个加入到spider中。
- start_requests 中根据用户ID启动四个Request,同时对个人信息、微博、关注和粉丝进行爬取。
- 将新爬下来的关注和粉丝ID加入到待爬队列(先去重)。
Settings.py :设定(settings)同时也是选择当前激活的Scrapy项目的方法(如果您有多个的话)。
CookiesMiddleware
-
class
-
该中间件使得爬取需要cookie(例如使用session)的网站成为了可能。 其追踪了web server发送的cookie,并在之后的request中发送回去, 就如浏览器所做的那样。
-
UserAgentMiddleware
class scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware
用于覆盖spider的默认user agent的中间件。
要使得spider能覆盖默认的user agent,其 user_agent 属性必须被设置
scrapy.contrib.downloadermiddleware.cookies.
CookiesMiddleware