python爬虫
文章平均质量分 85
github_30830155
这个作者很懒,什么都没留下…
展开
-
Scrapy安装介绍
一、 Scrapy简介 Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes,转载 2015-12-15 21:27:32 · 261 阅读 · 0 评论 -
豆瓣电影的爬虫示例
原文链接 :http://www.ituring.com.cn/article/114408 Scrapy简介 Scrapy是Python开发的一个快速,高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。 下图展示了Scrapy的大致架构,其中包含了主要组件和系统的数据处理流程(绿色箭头表示)。下面会对组件和流程进行了一个简单的解释。转载 2015-12-15 21:42:10 · 3623 阅读 · 0 评论 -
request,yield爬取网页
首先,在教程(二)(http://blog.csdn.net/u012150179/article/details/32911511)中,研究的是爬取单个网页的方法。在教程(三)(http://blog.csdn.net/u012150179/article/details/34441655)中,讨论了Scrapy核心架构。现在在(二)的基础上,并结合在(三)中提到的爬取多网页的原理方法,进而进行转载 2015-12-16 16:55:54 · 1046 阅读 · 0 评论 -
写爬虫,只是为了下小说
整体思路 spider 大概兴趣是第一生产力吧 网上找的小说现成的txt排版都有问题,缺少章节,不过一些盗版网站章节倒是挺全 本来想着是找到index页,爬取所有章节连接,然后拼接成网址,再进行细节爬取,但是搞了一下发现不知道怎么弄 所以后来就变成了直接从第一章节开始爬,找到标题和正文,用xpath就可以了,然后找到下一章的地址 看着网上一个博客,用的 yield ,我的理解就是一个循原创 2015-12-17 21:34:46 · 774 阅读 · 0 评论