[爬虫]用Python抓取非小号网站数字货币（一）

最新推荐文章于 2024-07-20 07:08:55 发布

置顶

kandy_ye

最新推荐文章于 2024-07-20 07:08:55 发布

阅读量1.4w

点赞数 5

分类专栏：爬虫爬虫文章标签： python 爬虫 mongodb scrapy 比特币

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kandy_Ye/article/details/78807315

版权

本文介绍了使用Python Scrapy框架抓取非小号网站上的所有数字货币详情链接和名称。首先，环境配置包括OS、Python、Scrapy、PyMongo等。接着，内容说明目标是抓取货币链接和名称，设计数据库仅存储货币名称、URL和ID。在MongoDB中定义Pipeline以避免重复数据。然后，创建Scrapy项目，设置MongoDB存储，并定义爬虫文件。页面分析中，利用XPath选择器和正则表达式提取所需信息，过滤掉不需要的数据。最后，展示了部分抓取数据的截图。

摘要由CSDN通过智能技术生成

一、环境

OS：win10
python：3.6
scrapy：1.3.2
pymongo：3.2
pycharm

环境搭建，自行百度

二、本节内容说明

本节主要抓取非小号收录的所有数字货币的详情链接和数字货币名称。

三、数据库说明

1. 货币详情页链接

非小号大概收录了1536种数字货币的信息：

http://www.feixiaohao.com

这里写图片描述

为了后面抓取详细的信息做准备，需要先抓取详情页的地址，所以我们对于数字货币的链接地址数据库设计，只需要货币名称和对应的URL即可，然后是id。如下：

    name  #分类名称
    url  #分类url
    _id  #分类id

四、抓取说明

由于非小号网站在首页提供了显示全部数字货币的功能，所以我们没有必要分页抓取，偷个懒：

这里写图片描述

后面的抓取直接使用显示全部数字货币的链接：

http://www.feixiaohao.com/all/

1. 新建项目

在你的工作目录里面新建一个scrapy的项目，使用如下命令：

scrapy startproject coins

目录结构如下：

最低0.47元/天解锁文章

关注

5
点赞
踩
11

收藏

觉得还不错? 一键收藏
6
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。