手把手教你写爬虫
jiangjingxuan
这个作者很懒,什么都没留下…
展开
-
手把手教你写电商爬虫-第一课 找个软柿子捏捏
话说现在基本上大家都在网上买东西,国家经济数据已经可以在网络购物的数据中略微窥见一二,再加上目前B2B行业的持续火爆,大有把所有交易搬到网上来的趋势,这个系列教程就来讲讲如果爬取这些大量的电商交易的数据。工具要求:教程中主要使用到了 1、神箭手云爬虫框架 这个是爬虫的基础,2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确基础知识转载 2017-02-27 09:11:22 · 655 阅读 · 0 评论 -
互联网金融爬虫怎么写-第四课 雪球网股票爬虫(单页面多数据)
哈哈,我又来了,话说出教程就是这么任性,咱们乘热打铁,把上节课分析完成但是没写的代码给完成了!工具要求与基础知识:工具要求:教程中主要使用到了 1、神箭手云爬虫 框架 这个是爬虫的基础,2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确 3、Advanced REST Client用来模拟提交请求基础知识:本教程中主要转载 2017-02-27 09:28:55 · 1104 阅读 · 0 评论 -
互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)
上一节课我们一起通过一个p2p网贷爬虫,深入了解了一下XPath以及其在最终实际使用中的写法。可以毫不夸张的说,对于写简单爬虫来说,最最重要的,就是使用好XPath,以及这一课要讲的正则表达式。正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE)正则表达式几乎出现在每一个编程语言中,有着极其广泛的应用,比如转载 2017-02-27 09:27:33 · 646 阅读 · 0 评论 -
互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)
工具要求:教程中主要使用到了 1、神箭手云爬虫 框架 这个是爬虫的基础,2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确基础知识:本教程中主要用到了一些基础的js和xpath语法,如果对这两种语言不熟悉,可以提前先学习下,都很简单 之前写了一个电商爬虫系列的文章,简单的给大家展示了一下爬虫从入门到进阶的路径,但是作为一个永远走在时代转载 2017-02-27 09:27:05 · 540 阅读 · 0 评论 -
手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫
四节课过去了,咱们在爬虫界也都算见过世面的人,现在再来一些什么ajax加载之类的小鱼小虾应该不在话下了,即使是淘宝这种大量的ajax,我们 祭上我们的核武器,也轻松应对了,这一课主要是来看看除了技术上的页面处理外,我们还会遇上更棘手的问题,就是反爬虫,当然现在有各种各样的反爬虫,今天 就先介绍最简单的一种:限制IP。今天咱们的对手依然是业界大佬,马云最忌惮的男人,宅男心中爱恨交错的对象 - J转载 2017-02-27 09:24:34 · 771 阅读 · 0 评论 -
手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染
老规矩,爬之前首先感谢淘宝公布出这么多有价值的数据,才让我们这些爬虫们有东西可以搜集啊,不过淘宝就不用我来安利了广大剁手党相信睡觉的时候都能把网址打出来吧。工欲善其事,必先利其器,先上工具:1、神箭手云爬虫,2、Chrome浏览器 3、Chrome的插件XpathHelper 不知道是干嘛的同学请移步第一课 好了,咱们还是先打开淘宝网:清新的画面,琳琅满目的商品转载 2017-02-27 09:23:53 · 751 阅读 · 0 评论 -
手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取
看完两篇,相信大家已经从开始的小菜鸟晋升为中级菜鸟了,好了,那我们就继续我们的爬虫课程。上一课呢一定是因为对手太强,导致我们并没有完整的完成尚妆网的爬虫。 吭吭~,我们这一课继续,争取彻底搞定尚妆网,不留任何遗憾。我们先回顾一下,上一课主要遗留了两个问题,两个问题都和ajax有关。1、由于是ajax加载下一页,导致下一页url并不会被系统自动发现。2、商品页面的价格是通过a转载 2017-02-27 09:23:17 · 589 阅读 · 0 评论 -
手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫
如果没有看过第一课的朋友,请先移步第一课,第一课讲了一些基础性的东西,通过软柿子"切糕王子"这个电商网站好好的练了一次手,相信大家都应该对写爬虫的流程有了一个大概的了解,那么这课咱们就话不多说,正式上战场,对垒尚妆网。首先,向我们被爬网站致敬,没有他们提供数据,我们更是无从爬起,所以先安利一下尚妆网:经营化妆品时尚购物,大数据为驱动,并依托智能首饰为入口的新一代智慧美妆正品电子商务平台。其转载 2017-02-27 09:22:27 · 453 阅读 · 0 评论 -
爬虫、网页分析解析辅助工具 Xpath-helper
每一个写爬虫、或者是做网页分析的人,相信都会因为在定位、获取xpath路径上花费大量的时间,甚至有时候当爬虫框架成熟之后,基本上主要的时间都花费在了页面的解析上。在没有这些辅助工具的日子里,我们只能通过搜索html源代码,定位一些id去找到对应的位置,非常的麻烦,而且经常出错。这里介绍一个chrome的xpath辅助插件给大家。先给到下载链接:xpath-helper安装好之后,我们重转载 2017-02-27 09:19:37 · 711 阅读 · 0 评论 -
XPath Checker 和 firebug 插件使用
安装插件: 1.firebug 2.FirePath 3.xpath finder 4.XPath Checker XPath Checker 下载安装 https://addons.mozilla.org/en-US/firefox/addon/xpath-checker/ 安装XPath Checker后,就可右键--view xpath,写Xpa转载 2017-02-27 09:45:19 · 1194 阅读 · 0 评论