python-scrapy框架的入门知识、随便写写。

安装scrapy前记得要安python!!!,我的环境是python 3.6的,代码传送门在文章最后。

安装scrapy框架:

  • 首先是windows的,先用pip install wheel,要是在线安装不行的话,就去这个网站 https://www.lfd.uci.edu/~gohlke/pythonlibs/ ,去找你要下的XXX.whl。
  • 再安装一个twiste,也是pip install twiste 不行也是去上面那个网站找。
  • 第三个就是pip install lxml,安装完成后直接pip install scrapy 就应该可以了。

  • 然后是linux的,很简单就是pip install scrapy 就可以了。

主要讲的是scrapy里面的架构,安装的步骤就不多说了。

具体的大项目可以看我的博客 传送门
接下来都是拿我上面这个项目举例
首先是整体的框架
这里写图片描述
看到了很多的 .py 文件,下面就说说他们是干嘛的。

  • spider.py,是scrapy框架的主体,里面包括了URL的处理、URL的拼接、URL的如何请求以及爬虫要爬那些东西。
    首先是构建URL:
class TranspondcontentSpider(Spider) :
    name = "weibo"

    allowed_domains = ["m.weibo.cn"]

    #在start_requests方法中构建url

    def start_requests(self):
        # 从文件里读取ID
        #此处的id为该条微博的id,转发后id会不一样

        f = open(INPUTFILE_POSITION)
        for user_id in f.readlines():
            url = 'https://m.weibo.cn/api/statuses/repostTimeline?id=' + str(user_id) + '&page=1'
            # 通过上方的url,爬取到该条微博转发的页数
            # 如果能成功连接就进行请求
            yield scrapy.Request(url, meta={'id': user_id}, callback=self.parse, dont_filter=True)
            #由于接下来的url需要微博id,所以用meta携带id

我这里是通过本地的txt文件读取uid,再通过字符串的拼凑,把微博转发的URL组合了出来,再通过yield方法进出要爬取的页面,同时要注意在class里面要注明爬虫的名字,这里爬虫的名字就是 weibo

接下来就是对内容的爬取


        for i in range(0, 12):

            weiboItem = WeibocontentItem()
            weiboItemdata = data[i]

            weiboItem['reWeiboId'] = weiboItemdata.get('id')        # 转发后的微博的ID
            weiboItem['reText'] = weiboItemdata.get('raw_text')     # 转发时的文字内容
            weiboItem['reTime'] = self.time_form(weiboItemdata.get('created_at').encode('utf-8'))   # 转发博文的发布时间

            weiboUser = weiboItemdata.get('user')
            weiboItem['reId'] =  weiboUser.get('id')                # 转发人的id
            weiboItem['reName'] = weiboUser.get('screen_name')      # 转发人的昵称
            weiboItem['reUrl'] = weiboUser.get('profile_url')       # 转发人的url

            print u'正在处理第 %d 条微博:  %s  %s' % (i, weiboItem['reTime'], str(time.strftime('%H:%M:%S', time.localtime(time.time()))))
            yield weiboItem

通过yield weiboItem 将爬取到的信息存到Mongodb里。

  • 然后就是 item.py ,就是将你要爬的字段写在这里,写成一个class 然后在spider.py内调用,把爬取到信息赋给这些字段就可以存到数据库了。
    # 微博的转发信息
    reWeiboId = Field()    # 转发后的微博的ID

    reId = Field()         # 转发人的ID
    reName = Field()       # 转发人的昵称
    reUrl = Field()        #转发人的主页url

    reText = Field()       # 转发时的文字内容
    rePicInfo = Field()    # 转发时的图片内容
    reRepost = Field()     # 转发博文从此处再次被转发的次数
    reAttu = Field()       # 转发博文在此处的点赞数
    reFrom = Field()       # 转发博文的来源(设备)
    reTime = Field()       # 转发博文的发布时间

    crawlTime = Field()    # 爬虫爬取的时间 √
  • 接下来就是scrapy框架的灵魂所在middlewares.py , 在这个py文件内可以对爬虫做一系列的伪装处理,比如:请求头的伪装、ip代理的处理以及Cookies的添加。在我的微博转发内容爬取的爬虫中就用到了请求头的伪装和IP代理的处理。

    下面是请求头伪装的代码,而所有的请求头都放在了user_agents.py,在middlewares内调用,对user_angent进行处理。

class AgentMiddleware(object):

    # 设置请求头,从请求池中随机抽取
    def process_request(self, request, spider):
        agent = random.choice(agents)
        request.headers["User-Agent"] = agent
        request.headers["Connection"] = 'keep-alive'
        request.headers["Accept-Language"] = 'zh-CN,zh;q=0.8'
        request.headers["Accept-Encoding"] = 'gzip, deflate, sdch'
        request.headers["Accept"] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'
  • 至于pipelines.py,就是对数据库进行操作将爬取的数据存入数据库,这里就是python的基础了,连接数据库,写入数据。
    def __init__(self):
        # 链接数据库
        self.client = pymongo.MongoClient(host='222.27.227.104',port=27017)
        # 数据库登录需要帐号密码的话
        # self.client.admin.authenticate(settings['MINGO_USER'], settings['MONGO_PSW'])
        self.db = self.client['weiboTranspondContent']  # 获得数据库的句柄
        self.coll = self.db['collections']  # 获得collection的句柄

    def process_item(self, item, spider):
        #postItem = dict(Redis_conn.blpop(["weibo:items"]))  # 把item转化成字典形式
        postItem = dict(item)
        self.coll.insert(postItem)  # 向数据库插入一条记录
        return item  # 会在控制台输出原item数据,可以选择不写
        # 将文件的记录存入mysql中
  • 最后setting.py,就是对爬虫的整体框架进行一些设置,比如爬虫的速率、线程的数量以及数据库的相关设置等等

然后还有一个scrapy.cfg的文件是对不同的爬虫进行设置。

到这儿scrapy框架的大致内容以及用法已经讲完。

完整代码,见GitHub,SinaTanspondSpider

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值