大量的数据做字符串匹配_数据科学不可不知的爬虫基础

在数据科学前行的道路上,爬虫是一门必杀技,本文就爬虫所需具备的基础知识库进行了梳理。

1. 爬虫是什么?

网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或脚本。

2. 爬虫所需的基础知识库

2.1 Python基础学习

在python的基础学习中,有很多可以参考的教材,本次推荐作者在学习过程中用到的参考书。

PDF下载连接:https://chly.github.io/adjunct/用python做科学计算.pdf

网页链接:http://bigsec.net/b52/scipydoc/#id3

网页链接中有大量的实例代码,可以直接学习实践。

210361e3f63493bbc33688a971604e67.png

用Python做科学计算

2.2 Python urllib和urllib2库的用法

urllib和urllib2是学习Python爬虫最基本的库,利用这个库我们可以得到网页的内容,并对内容用正则表达式提取分析,得到我们想要的结果。

3e40c8ce4472ead611cba3cc3c90e93a.png

urllib库介绍

2.3 Python正则表达式

Python正则表达式是一种用来匹配字符串的强有力的武器。

正则表达式是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,就认为匹配成功,否则,该字符串就是不合法的。

这里附上Python官方讲解正则表达式的文档链接:https://docs.python.org/zh-cn/3/library/re.html

如下图所示:

fb984e50eae571bf720b6a7a81f11343.png

正则表达式操作

2.4 爬虫框架Scrapy

Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。

Scrapy架构图(绿线是数据流向)如下所示:

be2f8e33d2fc60c5377da966792231f1.png

Scrapy架构图

Scrapy入门教程:https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

e9cedf34d0b8c51770c401ed72faec14.png

Scrapy入门教程

416139dfa38cfa5f948e47133ef88f73.png

夜空中最靓的仔

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值