python爬取疫情信息html.xpath p标签_Python数据科学实战之Web信息爬取 | 详解 + Reddit等2个案例实践...

原标题:Python数据科学实战之Web信息爬取 | 详解 + Reddit等2个案例实践

报 名

为了帮助数友们提升数据科学实战能力以及加深对数据科学理论的认识水平,中国人民大学朝乐门老师团队策划并推出【Python数据科学实战系列】,为您全景详解数据科学领域的最佳实践。目前,已公布的课程有:

6.Web信息爬取 | 详解 + Reddit等2个案例实践

5.基于MovieLens的影评趋势分析|详解

4.Windows和PC机上搭建Spark+Python开发环境的详细步骤

3.Jupyter Notebook/Lab中添加R Kernel的详细步骤

2.盘点数据科学领域常用的Python库

1.如何用Python学习数据科学

本文通过案例分析介绍如何通过Python中的Scrapy库进行网页数据爬取,内含代码分析,建议边阅读边实践,目录如下:

1. Scrapy简介2. 编写第一个网页爬取代码 2.1 安装Scrapy库 2.2 使用Scrapy Shell 进行快速试验 2.3 编写自定义Spider类3. 案例实践 3.1 Scrapy Shell调试代码 3.2 创建Spider类

1. Scrapy 简介

Scrapy是一个用于大规模网络数据爬取的Python框架。它提供了一系列工具用于高效地爬取网站数据,并且可以根据需要进行数据处理,并保存为结构化信息。

由于互联网的多样性,并没有“一刀切”的方法爬取网站数据,因此许多时候都采取临时的方法。当为一个小型任务编写代码时,会创建一个数据爬取的框架,Scrapy就是这样的框架。

2. 编写第一个网页爬取代码

以下将逐步分析如何应用Scrapy编写一个网页爬取代码。

2.1 安装Scrapy库

Scrapy库支持Python2.0和3.0,建议使用Anaconda进行安装,也可以直接pip安装。

若使用Anaconda进行安装,如下:

conda install -c conda-forge scrapy

也可直接使用pip命令安装,如下:

pip install scrapy

注:本文在Python3.0环境中使用Scrapy

2.2 使用Scrapy Shell 进行快速试验

2017年夏,美剧《权力的游戏》第7季播放,在Reddit上形成了话题专区。以下将使用Scrapy Shell对关于权游的讨论话题、评论数量、相关用户等数据进行爬取。

权游话题讨论专区网址为:https://www.reddit.com/r/gameofthrones/ ,这也是用于爬取的URL。

注 :Reddit是一个娱乐、社交及新闻网站,注册用户可以将文字或链接在网站上发布,使它基本上成为了一个电子布告栏系统。注册用户可以对这些帖子进行投票,结果将被用来进行排名和决定它在首页或子页的位置。网站上的内容分类被称为“subreddit”。(来自维基百科)

关于Scrapy 终端(Scrapy Shell)

Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码。 该终端是用来测试XPath或CSS表达式,查看他们的工作方式及从爬取的网页中提取的数据。 在编写您的spider时,该终端提供了交互性测试您的表达式代码的功能,免去了每次修改后运行spider的麻烦。(来自Scrapy 0.24.6 文档)

在cmd中启动Scrapy Shell:

scrapy shell

爬取权游话

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值