安装scrapy前记得要安python!!!,我的环境是python 3.6的,代码传送门在文章最后。
安装scrapy框架:
- 首先是windows的,先用pip install wheel,要是在线安装不行的话,就去这个网站 https://www.lfd.uci.edu/~gohlke/pythonlibs/ ,去找你要下的XXX.whl。
- 再安装一个twiste,也是pip install twiste 不行也是去上面那个网站找。
第三个就是pip install lxml,安装完成后直接pip install scrapy 就应该可以了。
然后是linux的,很简单就是pip install scrapy 就可以了。
主要讲的是scrapy里面的架构,安装的步骤就不多说了。
具体的大项目可以看我的博客 传送门
接下来都是拿我上面这个项目举例
首先是整体的框架
看到了很多的 .py 文件,下面就说说他们是干嘛的。
- spider.py,是scrapy框架的主体,里面包括了URL的处理、URL的拼接、URL的如何请求以及爬虫要爬那些东西。
首先是构建URL:
class TranspondcontentSpider(Spider) :
name = "weibo"
allowed_domains = ["m.weibo.cn"]
#在start_requests方法中构建url
def start_requests(self):
# 从文件里读取ID
#此处的id为该条微博的id,转发后id会不一样
f = open(INPUTFILE_POSITION)
for user_id in f.readlines():
url = 'https://m.weibo.cn/api/statuses/repostTimeline?id=' + str(user_id) + '&page=1'
# 通过上方的url,爬取到该条微博转发的页数
# 如果能成功连接就进行请求
yield scrapy.Request(url, meta={'id': user_id}, callback=self.parse, dont_filter=True)
#由于接下来的url需要微博id,所以用meta携带id
我这里是通过本地的txt文件读取uid,再通过字符串的拼凑,把微博转发的URL组合了出来,再通过yield方法进出要爬取的页面,同时要注意在class里面要注明爬虫的名字,这里爬虫的名字就是 weibo
接下来就是对内容的爬取
for i in range(0, 12):
weiboItem = WeibocontentItem()
weiboItemdata = data[i]
weiboItem['reWeiboId'] = weiboItemdata.get('id') # 转发后的微博的ID
weiboItem['reText'] = weiboItemdata.get('raw_text') # 转发时的文字内容
weiboItem['reTime'] = self.time_form(weiboItemdata.get('created_at').encode('utf-8')) # 转发博文的发布时间
weiboUser = weiboItemdata.get('user')
weiboItem['reId'] = weiboUser.get('id') # 转发人的id
weiboItem['reName'] = weiboUser.get('screen_name') # 转发人的昵称
weiboItem['reUrl'] = weiboUser.get('profile_url') # 转发人的url
print u'正在处理第 %d 条微博: %s %s' % (i, weiboItem['reTime'], str(time.strftime('%H:%M:%S', time.localtime(time.time()))))
yield weiboItem
通过yield weiboItem 将爬取到的信息存到Mongodb里。
- 然后就是 item.py ,就是将你要爬的字段写在这里,写成一个class 然后在spider.py内调用,把爬取到信息赋给这些字段就可以存到数据库了。
# 微博的转发信息
reWeiboId = Field() # 转发后的微博的ID
reId = Field() # 转发人的ID
reName = Field() # 转发人的昵称
reUrl = Field() #转发人的主页url
reText = Field() # 转发时的文字内容
rePicInfo = Field() # 转发时的图片内容
reRepost = Field() # 转发博文从此处再次被转发的次数
reAttu = Field() # 转发博文在此处的点赞数
reFrom = Field() # 转发博文的来源(设备)
reTime = Field() # 转发博文的发布时间
crawlTime = Field() # 爬虫爬取的时间 √
接下来就是scrapy框架的灵魂所在middlewares.py , 在这个py文件内可以对爬虫做一系列的伪装处理,比如:请求头的伪装、ip代理的处理以及Cookies的添加。在我的微博转发内容爬取的爬虫中就用到了请求头的伪装和IP代理的处理。
下面是请求头伪装的代码,而所有的请求头都放在了user_agents.py,在middlewares内调用,对user_angent进行处理。
class AgentMiddleware(object):
# 设置请求头,从请求池中随机抽取
def process_request(self, request, spider):
agent = random.choice(agents)
request.headers["User-Agent"] = agent
request.headers["Connection"] = 'keep-alive'
request.headers["Accept-Language"] = 'zh-CN,zh;q=0.8'
request.headers["Accept-Encoding"] = 'gzip, deflate, sdch'
request.headers["Accept"] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
- 至于pipelines.py,就是对数据库进行操作将爬取的数据存入数据库,这里就是python的基础了,连接数据库,写入数据。
def __init__(self):
# 链接数据库
self.client = pymongo.MongoClient(host='222.27.227.104',port=27017)
# 数据库登录需要帐号密码的话
# self.client.admin.authenticate(settings['MINGO_USER'], settings['MONGO_PSW'])
self.db = self.client['weiboTranspondContent'] # 获得数据库的句柄
self.coll = self.db['collections'] # 获得collection的句柄
def process_item(self, item, spider):
#postItem = dict(Redis_conn.blpop(["weibo:items"])) # 把item转化成字典形式
postItem = dict(item)
self.coll.insert(postItem) # 向数据库插入一条记录
return item # 会在控制台输出原item数据,可以选择不写
# 将文件的记录存入mysql中
- 最后setting.py,就是对爬虫的整体框架进行一些设置,比如爬虫的速率、线程的数量以及数据库的相关设置等等
然后还有一个scrapy.cfg的文件是对不同的爬虫进行设置。
到这儿scrapy框架的大致内容以及用法已经讲完。