一、环境
- OS:win10
- python:3.6
- scrapy:1.3.2
- pymongo:3.2
- pycharm
环境搭建,自行百度
二、本节内容说明
本节主要抓取非小号收录的所有数字货币的详情链接和数字货币名称。
三、数据库说明
1. 货币详情页链接
非小号大概收录了1536种数字货币的信息:
http://www.feixiaohao.com
为了后面抓取详细的信息做准备,需要先抓取详情页的地址,所以我们对于数字货币的链接地址数据库设计,只需要货币名称和对应的URL即可,然后是id。如下:
name #分类名称
url #分类url
_id #分类id
四、抓取说明
由于非小号网站在首页提供了显示全部数字货币的功能,所以我们没有必要分页抓取,偷个懒:
后面的抓取直接使用显示全部数字货币的链接:
http://www.feixiaohao.com/all/
1. 新建项目
在你的工作目录里面新建一个scrapy的项目,使用如下命令:
scrapy startproject coins
目录结构如下:
c