[爬虫]用Python抓取非小号网站数字货币(一)

一、环境

  • OS:win10
  • python:3.6
  • scrapy:1.3.2
  • pymongo:3.2
  • pycharm

环境搭建,自行百度

二、本节内容说明

本节主要抓取非小号收录的所有数字货币的详情链接和数字货币名称。

三、数据库说明

1. 货币详情页链接

非小号大概收录了1536种数字货币的信息:

http://www.feixiaohao.com

这里写图片描述

为了后面抓取详细的信息做准备,需要先抓取详情页的地址,所以我们对于数字货币的链接地址数据库设计,只需要货币名称和对应的URL即可,然后是id。如下:

    name  #分类名称
    url  #分类url
    _id  #分类id

四、抓取说明

由于非小号网站在首页提供了显示全部数字货币的功能,所以我们没有必要分页抓取,偷个懒:

这里写图片描述

后面的抓取直接使用显示全部数字货币的链接:

http://www.feixiaohao.com/all/
1. 新建项目

在你的工作目录里面新建一个scrapy的项目,使用如下命令:

scrapy startproject coins

目录结构如下:

c
  • 5
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值