python爬取知乎热搜_python爬取知乎

大小: 1.59M

文件类型: .zip

金币: 1

下载: 0 次

发布日期: 2021-01-30

资源简介

此项目的功能是爬取知乎用户信息以及人际拓扑关系,爬虫框架使用scrapy,数据存储使用mongo,下载这些数据感觉也没什么用,就当为大家学习scrapy提供一个例子吧。

## 使用方法

### 本地运行

爬虫程序依赖mongo和rabbitmq,因此这两个服务必须正常运行和配置。为了加快下载效率,图片下载是异步任务,因此在启动爬虫进程执行需要启动异步worker,启动方式是进入zhihu_spider/zhihu目录后执行下面命令:

资源截图

33cd3af907e7e9834db4249e3169a5c2.png

f80a9dbea2ab043c18a21fd0f81cc886.png

63cd299dd7f0521407190aecc61b5705.png

4ce2eedc577cb7999dd912b1a3fd80ce.png

b06a2fc051c22ba4e760175d1eb6a117.png

85b0fc60b3a7a3c4dbb7c7d8acfff3ac.png

e6d6888354572b1653e2ed8a50ecd8a4.png

27bd35f2872b325839d3753eed28d543.png

6ec84767f1489d1f7d7fbcfef5d651b2.png

19f4343bf1b9afaf110bee0d99797e3a.png

a424e1bf2ea30836fb2f66ccf3d39aab.png

13758f5388b3f86d59ab4c00acc8704e.png

代码片段和文件信息

# -*- coding=utf8 -*-

from scrapy import cmdline

cmdline.execute(“scrapy crawl zhihu“.split())

属性            大小     日期    时间   名称

----------- ---------  ---------- -----  ----

目录           0  2016-03-20 14:42  zhihu_spider-master\

文件          30  2016-03-20 14:42  zhihu_spider-master\.gitignore

文件        3056  2016-03-20 14:42  zhihu_spider-master\README.md

目录           0  2016-03-20 14:42  zhihu_spider-master\doc\

文件      753450  2016-03-20 14:42  zhihu_spider-master\doc\image.png

文件      532877  2016-03-20 14:42  zhihu_spider-master\doc\people.png

文件      413151  2016-03-20 14:42  zhihu_spider-master\doc\relation.png

文件      126198  2016-03-20 14:42  zhihu_spider-master\doc\主页.png

文件      111628  2016-03-20 14:42  zhihu_spider-master\doc\代码.png

文件        3386  2016-03-20 14:42  zhihu_spider-master\doc\流程图.graffle

文件       97151  2016-03-20 14:42  zhihu_spider-master\doc\流程图.png

文件         232  2016-03-20 14:42  zhihu_spider-master\docker-compose.yml

文件          60  2016-03-20 14:42  zhihu_spider-master\requirements.txt

目录           0  2016-03-20 14:42  zhihu_spider-master\zhihu\

文件          96  2016-03-20 14:42  zhihu_spider-master\zhihu\main.py

文件         254  2016-03-20 14:42  zhihu_spider-master\zhihu\scrapy.cfg

目录           0  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\

文件           0  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\__init__.py

文件         686  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\constants.py

文件        1092  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\items.py

文件        2536  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\pipelines.py

文件        3654  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\settings.py

目录           0  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\spiders\

文件         161  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\spiders\__init__.py

文件        7657  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\spiders\profile.py

目录           0  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\tools\

文件          44  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\tools\__init__.py

文件         696  2016-03-20 14:42  zhihu_spider-master\zhihu\zhihu\tools\async.py

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值