自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

rubinorth的博客

一只学生狗

  • 博客(3)
  • 收藏
  • 关注

转载 网页爬虫--scrapy进阶

本篇将谈一些scrapy的进阶内容,帮助大家能更熟悉这个框架。1. 站点选取现在的大网站基本除了pc端都会有移动端,所以需要先确定爬哪个。比如爬新浪微博,有以下几个选择: 1. www.weibo.com,主站 2. www.weibo.cn,简化版 3. m.weibo.cn,移动版上面三个中,主站的微博数据是动态加载的,意味着光看源码是看不到数据的,想爬的话要么搞清楚其api访问情况,要么

2016-10-15 12:07:53 712

转载 爬虫入门(实用向)

从接触爬虫到现在也有一年半了,在这里总结一下一个新人入门爬虫需要了解的种种。作为实用向入门教程,我不会讲太多细枝末节的东西。最重要的就是能爬到东西不是吗?那好,作为一个爬虫新人,要爬一个网站时,应该怎么开始呢?首先,确定要爬的内容。是要整个网站的所有内容还是只是部分?需要的爬取的数据在网页源代码里有吗(涉及到模拟js发送请求)?需要的爬取的数据在网页上有吗(要用API爬吗)?确定要爬的内容之后,紧接

2016-10-15 12:07:04 1284

转载 网页爬虫--scrapy入门

本篇从实际出发,展示如何用网页爬虫。并介绍一个流行的爬虫框架~1. 网页爬虫的过程所谓网页爬虫,就是模拟浏览器的行为访问网站,从而获得网页信息的程序。正因为是程序,所以获得网页的速度可以轻易超过单身多年的手速:)。通常适用于需要大量网页信息的场合。爬取网页的流程为:访问初始url -> 获得返回的网页,从这个网页中得到新的url并放入待爬队列 -> 访问新的url -> …依次循环。整体上来看就是一

2016-10-15 12:06:22 489

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除