爬虫
leason00
工程师
展开
-
爬虫实践(三)--了解scrapy
说明所谓工欲善其事必先利其器,scrapy就是爬虫有力的工具。想用好它,就要先了解它的工作原理,毕竟,知己知彼方可百战不殆。Scrapy整体结构Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。转载 2017-08-15 14:42:23 · 955 阅读 · 0 评论 -
爬虫实践(一)--手写爬虫
说明爬虫是什么? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。 手写Python爬虫需要知道什么? Python基础知识 Python中urllib和urllib2库的用法 Python的BeautifulSoup Python正则表达式 一款数据库 简单爬虫包含的部分(不使用爬虫库) url管理原创 2017-08-14 10:45:46 · 1913 阅读 · 0 评论 -
爬虫实践(四)--scrapy简单实践
使用Python的scrapy框架爬取掌阅书城,实践过程原创 2017-08-16 15:23:22 · 1265 阅读 · 0 评论 -
爬虫实践(二)--掌阅书城
url分析分类URL//分类页面 http://www.ireader.com/index.php?ca=booksort.index&pca=booksort.index&pid=92&cid=320&order=download&status=0&page=0pid频道 === 92 为出版图书 10 男频 68女频(其他数字都为出版) cid类型 === 小说 文学传记等(三位数字) stat原创 2017-08-14 10:47:15 · 2243 阅读 · 0 评论