Python 爬虫基础知识

原创 2018年04月16日 12:04:58

1.技术选型
一般采用 scrapy + beautifulsoup 或者是 request + beautifulsoup
1.1
scrapy是一个框架,requests和beautifulsoup都是库,层级不同
scrapy是一个框架可以加入 requests和beautifulsoup的库
scrapy基于twisted,性能卓越(异步的io框架)
scrapy方便扩展,有着丰富的内置功能
scrapy内置CSS和Xpath selector 非常方便,相较于beautifulsoup,beautiful最大缺点是慢
项目采用:scrapy和requests 来主要实现


2.网页分类
静态网页
在服务器端事先生成好的一种页面,不会改变。


动态网页
通过传递数据/参数的不同,服务器返回不同的数据


webservice(restapi)
属于动态网页的一种,动态填充数据


3.python爬虫所能实现的功能
3.1 搜索引擎:百度、google、垂直领域搜索引擎(搜索指定数据)
3.2 推荐引擎:今日头条
3.3 机器学习的数据样本
3.4 数据分析:金融分析、舆情分析


基于目标网页特征
基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为:
(1) 预先给定的初始抓取种子样本;
(2) 预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;
(3) 通过用户行为确定的抓取目标样例,分为:
(a) 用户浏览过程中显示标注的抓取样本;
(b) 通过用户日志挖掘得到访问模式及相关样本。
版权声明:版权归作者个人所有,未经本人授权,只能用于学习、交流、研究。 https://blog.csdn.net/qq_31847191/article/details/79958884

Python爬虫知识点梳理

学任何一门技术,都应该带着目标去学习,目标就像一座灯塔,指引你前进,很多人学着学着就学放弃了,很大部分原因是没有明确目标,所以,在你准备学爬虫前,先问问自己为什么要学习爬虫。有些人是为了一份工作,有些...
  • zV3e189oS5c0tSknrBCL
  • zV3e189oS5c0tSknrBCL
  • 2017-09-20 00:00:00
  • 566

网络爬虫及面试中必须掌握的python基础知识(一)

一、python编程模式python编程模式分为两种:python交互模式和命令行模式。1、python交互模式:①windows运行窗口输入python(已安装好python2.x或python3....
  • qq_32865355
  • qq_32865355
  • 2018-03-07 20:34:16
  • 60

Python爬虫一(入门综述、基础)

转载:静觅 » Python爬虫入门一之综述 首先爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维...
  • freeking101
  • freeking101
  • 2017-03-01 21:27:37
  • 757

python新浪微博爬虫

  • 2018年01月24日 19:06
  • 111KB
  • 下载

python 爬虫实例宋城路

  • 2017年11月07日 16:40
  • 56.24MB
  • 下载

Python爬虫开发与项目实战

  • 2018年02月18日 19:14
  • 50MB
  • 下载

精通python爬虫

  • 2017年12月29日 21:56
  • 1.98MB
  • 下载

python初学(爬虫+web开发)

python初学近期提前进入研究生的生活,有点措手不及,最近的两个项目都涉及到python ,第一个是使用爬虫,第二个是可视化,想用python来实现后天,然后js+html来实现前端,所以对pyth...
  • u014119694
  • u014119694
  • 2017-07-10 22:13:43
  • 642

入门python3爬虫需要掌握的知识与技巧

近期学了几天的python爬虫,在一个人瞎摸索中吸取了很多经验,在此把自己的初学者学习的经验拿出来分享。 下面讲的是python3,没了解过python2,不过似乎有些地方两者区别很大。 ...
  • python_dream
  • python_dream
  • 2017-12-02 01:34:43
  • 224
收藏助手
不良信息举报
您举报文章:Python 爬虫基础知识
举报原因:
原因补充:

(最多只允许输入30个字)