python-scrapy框架的入门知识、随便写写。

最新推荐文章于 2024-06-25 14:57:14 发布

马走日_ZouR-Ma

最新推荐文章于 2024-06-25 14:57:14 发布

阅读量246

点赞数

分类专栏： python-scrapy框架的体会文章标签： python scrapy 爬虫

本文链接：https://blog.csdn.net/Fitzzzz/article/details/81451634

版权

python-scrapy框架的体会专栏收录该内容

2 篇文章 0 订阅

订阅专栏

安装scrapy前记得要安python!!!,我的环境是python 3.6的，代码传送门在文章最后。

安装scrapy框架：

首先是windows的，先用pip install wheel，要是在线安装不行的话，就去这个网站 https://www.lfd.uci.edu/~gohlke/pythonlibs/ ，去找你要下的XXX.whl。
再安装一个twiste，也是pip install twiste 不行也是去上面那个网站找。
第三个就是pip install lxml，安装完成后直接pip install scrapy 就应该可以了。
然后是linux的，很简单就是pip install scrapy 就可以了。

主要讲的是scrapy里面的架构，安装的步骤就不多说了。

具体的大项目可以看我的博客传送门
接下来都是拿我上面这个项目举例
首先是整体的框架
这里写图片描述
看到了很多的 .py 文件，下面就说说他们是干嘛的。

spider.py，是scrapy框架的主体，里面包括了URL的处理、URL的拼接、URL的如何请求以及爬虫要爬那些东西。
首先是构建URL：

class TranspondcontentSpider(Spider) :
    name = "weibo"

    allowed_domains = ["m.weibo.cn"]

    #在start_requests方法中构建url

    def start_requests(self):
        # 从文件里读取ID
        #此处的id为该条微博的id，转发后id会不一样

        f = open(INPUTFILE_POSITION)
        for user_id in f.readlines():
            url = 'https://m.weibo.cn/api/statuses/repostTimeline?id=' + str(user_id) + '&page=1'
            # 通过上方的url，爬取到该条微博转发的页数
            # 如果能成功连接就进行请求
            yield scrapy.Request(url, meta={'id': user_id}, callback=self.parse, dont_filter=True)
            #由于接下来的url需要微博id，所以用meta携带id

我这里是通过本地的txt文件读取uid，再通过字符串的拼凑，把微博转发的URL组合了出来，再通过yield方法进出要爬取的页面，同时要注意在class里面要注明爬虫的名字，这里爬虫的名字就是 weibo

接下来就是对内容的爬取


        for i in range(0, 12):

            weiboItem = WeibocontentItem()
            weiboItemdata = data[i]

            weiboItem['reWeiboId'] = weiboItemdata.get('id')        # 转发后的微博的ID
            weiboItem['reText'] = weiboItemdata.get('raw_text')     # 转发时的文字内容
            weiboItem['reTime'] = self.time_form(weiboItemdata.get('created_at').encode('utf-8'))   # 转发博文的发布时间

            weiboUser = weiboItemdata.get('user')
            weiboItem['reId'] =  weiboUser.get('id')                # 转发人的id
            weiboItem['reName'] = weiboUser.get('screen_name')      # 转发人的昵称
            weiboItem['reUrl'] = weiboUser.get('profile_url')       # 转发人的url

            print u'正在处理第 %d 条微博：  %s  %s' % (i, weiboItem['reTime'], str(time.strftime('%H:%M:%S', time.localtime(time.time()))))
            yield weiboItem

通过yield weiboItem 将爬取到的信息存到Mongodb里。

然后就是 item.py ，就是将你要爬的字段写在这里，写成一个class 然后在spider.py内调用，把爬取到信息赋给这些字段就可以存到数据库了。

    # 微博的转发信息
    reWeiboId = Field()    # 转发后的微博的ID

    reId = Field()         # 转发人的ID
    reName = Field()       # 转发人的昵称
    reUrl = Field()        #转发人的主页url

    reText = Field()       # 转发时的文字内容
    rePicInfo = Field()    # 转发时的图片内容
    reRepost = Field()     # 转发博文从此处再次被转发的次数
    reAttu = Field()       # 转发博文在此处的点赞数
    reFrom = Field()       # 转发博文的来源（设备）
    reTime = Field()       # 转发博文的发布时间

    crawlTime = Field()    # 爬虫爬取的时间 √

接下来就是scrapy框架的灵魂所在middlewares.py ，在这个py文件内可以对爬虫做一系列的伪装处理，比如：请求头的伪装、ip代理的处理以及Cookies的添加。在我的微博转发内容爬取的爬虫中就用到了请求头的伪装和IP代理的处理。

下面是请求头伪装的代码，而所有的请求头都放在了user_agents.py，在middlewares内调用，对user_angent进行处理。

class AgentMiddleware(object):

    # 设置请求头，从请求池中随机抽取
    def process_request(self, request, spider):
        agent = random.choice(agents)
        request.headers["User-Agent"] = agent
        request.headers["Connection"] = 'keep-alive'
        request.headers["Accept-Language"] = 'zh-CN,zh;q=0.8'
        request.headers["Accept-Encoding"] = 'gzip, deflate, sdch'
        request.headers["Accept"] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8'

至于pipelines.py，就是对数据库进行操作将爬取的数据存入数据库，这里就是python的基础了，连接数据库，写入数据。

    def __init__(self):
        # 链接数据库
        self.client = pymongo.MongoClient(host='222.27.227.104',port=27017)
        # 数据库登录需要帐号密码的话
        # self.client.admin.authenticate(settings['MINGO_USER'], settings['MONGO_PSW'])
        self.db = self.client['weiboTranspondContent']  # 获得数据库的句柄
        self.coll = self.db['collections']  # 获得collection的句柄

    def process_item(self, item, spider):
        #postItem = dict(Redis_conn.blpop(["weibo:items"]))  # 把item转化成字典形式
        postItem = dict(item)
        self.coll.insert(postItem)  # 向数据库插入一条记录
        return item  # 会在控制台输出原item数据，可以选择不写
        # 将文件的记录存入mysql中

最后setting.py，就是对爬虫的整体框架进行一些设置，比如爬虫的速率、线程的数量以及数据库的相关设置等等

然后还有一个scrapy.cfg的文件是对不同的爬虫进行设置。

到这儿scrapy框架的大致内容以及用法已经讲完。

完整代码，见GitHub，SinaTanspondSpider

马走日_ZouR-Ma

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python-scrapy框架的入门知识、随便写写。

安装scrapy前记得要安python!!!,我的环境是python 3.6的。安装scrapy框架：首先是windows的，先用pip install wheel，要是在线安装不行的话，就去这个网站 https://www.lfd.uci.edu/~gohlke/pythonlibs/ ，去找你要下的XXX.whl。再安装一个twiste，也是pip install twiste 不...
复制链接

扫一扫