[置顶] 互联网金融爬虫怎么写-第四课 雪球网股票爬虫(单页面多数据)

好了,主要的代码基本已经写好了,剩下的还需要解决两个问题 1.爬取前需要先访问一下首页获取cookie 2.虽然可以直接加入下一页,但是一共有多少页并不知道。 首先对于第一点,我们只需要在beforeCrawl回调中访问一下首页即可,神箭手会自动对cookie进行处理和保存。 数据已经出来了,没问题,第一页的数据都有了,那下一页怎么处理呢?我们有两个方案: 第一个方案: 我们可以看到json的返回值中有一个count字段,这个字段目测应该是总数据量的值,那没我们根据这个值,再加上单页数据条数,我们就可以判断...
阅读(1682) 评论(0)

[置顶] 互联网金融爬虫怎么写-第三课 雪球网股票爬虫(ajax分析)

前面的课程有: 互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门) 互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门) 咱们废话不多说,接着上一课继续研究雪球网,雪球网通过狂拽的js请求,直接把我们打回原形,辛辛苦苦分析半天的页面前功尽弃,不过不要紧,咱们想爬别人数据,就不能害怕js渲染,前面的课程大多都通过种种方式绕过了js请求的方式来完成爬虫,那么这节课,就通过雪球网,来实实在在的面对一下我们的这个无法回避的敌人--ajax...
阅读(1172) 评论(1)

[置顶] 互联网金融爬虫怎么写-第二课 雪球网股票爬虫(正则表达式入门)

对于手里有点闲钱的人来说,可能最常见的投资品就是股票了,虽然中国股票市场那叫一个变幻诡谲,妖兽频出。但依旧相对其他流通性差,投资门槛高的投资产品来说,有着国家信用背书的股市依然是不二的投资选择。股票的数据很多地方都有,我们今天就通过雪球的行情中心,爬一下当天各个上市公司的股票价格吧。...
阅读(2983) 评论(1)

[置顶] 互联网金融爬虫怎么写-第一课 p2p网贷爬虫(XPath入门)

之前写了一个电商爬虫系列的文章,简单的给大家展示了一下爬虫从入门到进阶的路径,但是作为一个永远走在时代前沿的科技工作者,我们从来都不能停止在已有的成果上,所以带上你的chrome,拿起你的xpathhelper,打开你的神箭手,让我们再次踏上征战金融数据之旅吧。(上个系列相对难一些,建议如果是初学者,先看这个系列的教程) 金融数据实在是价值大,维度多,来源广。我们到底从哪里入手呢?想来想去,就从前一段时间风云变幻的p2p网贷吧。 同样,我们教程的一致风格就是先找个软柿子,上来不能用力过猛,逐渐培养自己的信心...
阅读(2989) 评论(0)

[置顶] 手把手教你写电商爬虫-第五课 京东商品评论爬虫 一起来对付反爬虫

系列教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取 手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染 四节课过去了,咱们在爬虫界也都算见过世面的人,现在再来一些什么ajax加载之类的小鱼小虾应该不在话下了,即使是淘宝这种大量的ajax,我...
阅读(3740) 评论(0)

[置顶] 手把手教你写电商爬虫-第四课 淘宝网商品爬虫自动JS渲染

都已经三节课了,大家活动活动手脚,咱们开始一场真正的硬仗, 我们要来爬电商老大,淘宝的数据了。 老规矩,爬之前首先感谢淘宝公布出这么多有价值的数据,才让我们这些爬虫们有东西可以搜集啊,不过淘宝就不用我来安利了 广大剁手党相信睡觉的时候都能把网址打出来吧。...
阅读(5894) 评论(0)

如何在神箭手上快速开发爬虫——第二课 如何爬取JS动态生成的数据【豌豆荚游戏排行榜】

手把手教你写爬虫 第二课...
阅读(198) 评论(0)

如何在神箭手上快速开发爬虫——第一课 简单的文章爬虫【糗事百科】

手把手教你写网络爬虫...
阅读(201) 评论(0)

豌豆荚游戏排行榜爬虫

var configs = { domains: ["apps.wandoujia.com"], scanUrls: ["http://apps.wandoujia.com/api/v1/apps?type=weeklytopgame&max=12&start=0"], contentUrlRegexes: ["http://www\\.wandoujia\\.com/ap...
阅读(754) 评论(1)

手把手教你写电商爬虫-第三课 实战尚妆网AJAX请求处理和内容提取

系列教程: 手把手教你写电商爬虫-第一课 找个软柿子捏捏 手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫 看完两篇,相信大家已经从开始的小菜鸟晋升为中级菜鸟了,好了,那我们就继续我们的爬虫课程。 上一课呢一定是因为对手太强,导致我们并没有完整的完成尚妆网的爬虫。 吭吭~,我们这一课继续,争取彻底搞定尚妆网,不留任何遗憾。 我们先回顾一下,上一课主要遗留...
阅读(3104) 评论(1)

手把手教你写电商爬虫-第二课 实战尚妆网分页商品采集爬虫

系列教程 手把手教你写电商爬虫-第一课 找个软柿子捏捏 如果没有看过第一课的朋友,请先移步第一课,第一课讲了一些基础性的东西,通过软柿子"切糕王子"这个电商网站好好的练了一次收,相信大家都应该对写爬虫的流程有了一个大概的了解,那么这课咱们就话不多说,正式上战场,对垒尚妆网。 首先,向我们被爬网站致敬,没有他们提供数据,我们更是无从爬起,所以先安利一下尚妆网: 经营化妆品时尚购物,大数据...
阅读(3557) 评论(1)

手把手教你写电商爬虫-第一课 找个软柿子捏捏

话说现在基本上大家都在网上买东西,国家经济数据已经可以在网络购物的数据中略微窥见一二,再加上目前B2B行业的持续火爆,大有把所有交易搬到网上来的趋势,这个系列教程就来讲讲如果爬取这些大量的电商交易的数据。 工具要求:教程中主要使用到了 1、神箭手云爬虫 框架  这个是爬虫的基础,2、Chrome浏览器和Chrome的插件XpathHelper 这个用来测试Xpath写的是否正确 基础知识:本教程...
阅读(12289) 评论(0)

iPhone开发入门系列教程-第一课:开发准备及开发者帐号(idp)申请流程

由于网速太慢,中途等待时间过长,因此视频分成两个部分,中间有一些等待,大家可以跳过一些我废话的部分,之前我自己在申请idp的时候有不少的疑问,看到网上很网友的耐心解答,这里我把我申请idp的经验过程做成视频,一步步的带着大家,希望对新手申请有所帮助 视频:...
阅读(324) 评论(0)

iPhone入门开发基础视频教程--课程预览

在学习开发iPhone程序中遇到了很多问题,这里希望能通过这个系列视频教程,和大家分享一下我学习过程中的经验和教训,与大家一起进步,这篇是一个课程的预览 http://v.youku.com/v_show/id_XMzA2NTM3OTA0.html 课程设置 -第一部分...
阅读(393) 评论(0)

hadoop 0.20 程式開發

 零. 前言開發hadoop 需要用到許多的物件導向語法,包括繼承關係、介面類別,而且需要匯入正確的classpath,否則寫hadoop程式只是打字練習...用類 vim 來處理這種複雜的程式,有可能會變成一場惡夢,因此用eclipse開發,搭配mapreduce-plugin會事半功倍。早在hadoop 0.19~0.16之間的版本,筆者就試過各個plugin,每個版本的plugin都確實有大大小小的問題,如:hadoop plugin 無法正確使用、無法run as mapreduce。h...
阅读(287) 评论(0)

利用反射机制实现XML-RPC

摘要Java反射机制为使用XML-RPC(XML-based Remote Procedure Call,基于XML的远程过程调用)远程过程调用提供了一种简便又高效的实现方法,这种方法隐蔽掉了一些远程过程调用过程中的复杂操作。在这篇文章里,Stephan Maier展示给你如何从反射包中使用一些类去包装XML-RPC去调用远程接口:Proxy类,Array类, 和BeanInfo类。这篇文章也将要讨论这种方法的多重实现和在RMI(Remote Method I...
阅读(283) 评论(0)

flash builder 中swfloader的一些问题

用flash builder beta1开发过程发现swfloader载入本身工程下的子工程的swf时候会出现bug,载入的时候未能成功载入,反而会载入自身,网上搜了很久未发现解决办法,需要新的地方重新新建工程,再导入原文件,估计不能导入工程,没有尝试,导入后可能会出现以下引用上的问题,可以重新创建(本人比较菜,只能用这个方法),之后问题解决另外swfloader载入swf时 如果子swf文件...
阅读(461) 评论(0)
    个人资料
    • 访问:42261次
    • 积分:478
    • 等级:
    • 排名:千里之外
    • 原创:15篇
    • 转载:2篇
    • 译文:0篇
    • 评论:5条
    最新评论