pythonscrapy爬虫 崔庆才_Scrapy爬虫(一):专题概要

Scrapy爬虫(一):专题概要

准备工作

在最近做的智能项目中,我们在获取到用户需求的文本后,需要对用户的行为意图进行分析,然后做出响应,比如语义解析、内容推荐、数据整合等。和windows小娜一样,需要对相关的垂直领域进行语义分析,比如视频、音乐、应用、天气、股票、新闻、网站等,因此需要通过获取网络上的价值数据来进行人工神经网络的训练。

而快到年末了,项目稍微有点紧张,如何快速的获取价值数据,使用爬虫爬取网络数据是最可行的方式,而使用python scrapy爬虫框架又是最流行的方式,主要因为scrapy上手快、容易扩展。

我以前并没有使用过爬虫,但是使用scrapy花费很小的学习代价,就完成了基础数据的获取,在这里我想要说的是,如果以项目为驱动的话,学习的效率将会更加高。

这期间也遇到一些坑,最后都一一解决了,因此将使用scrapy的一些经验记录下来,一是可以以后自己参考,二是可以帮助同样对scrapy爬虫感兴趣的朋友,也希望您提出宝贵的意见。

虽然scrapy容易学习,但是还是需要一些基础知识。

也可以看一下相关的视频,对学习爬虫有些宏观的认识。

Python开发简单爬虫

python正则表达式

另外还有一些用python的一些基础库实现爬虫的资源。

崔庆才的博客

知乎-如何入门Python 爬虫

对于新手的话可以自己尝试使用下面四个python库就可以实现一些常用的需求了。

1. 网页下载 urllib

2. 网页解析 BeautifulSoup

3. 网络请求 Requests

4. 动态网页 Selenium

自己可以通过这几个库结合网络上的实例学习,但是要用在项目中还需要做更多的工作,毕竟你是在造轮子。

专题概要

关于scrapy爬虫的学习,我将以一个系列记录,主要以scrapy爬虫入门为目标,结合原理、实例的方式,下面是将要介绍的内容,需要说明的是全系列将以python3作演示。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值