Jsoup初接触-抓取彩票网站历史开奖信息

原创 2013年12月03日 19:08:22

下载jsoup.jar加到工程里 -> http://jsoup.org/download

分析彩票网站html源码,出奖信息大概如下:

<tr class="bgcolor1">
       <td class="td1">2013-10-15</td>
       <td class="td2">
           <a href="/lottery/draw/view/50?phase=2013121">2013121</a>
       </td>
       <td class="td3"><span class="result">	<span class="ball_1">04</span>
	<span class="ball_1">05</span>
	<span class="ball_1">06</span>
	<span class="ball_1">07</span>
	<span class="ball_1">25</span>
	<span class="ball_1">27</span>
	<span class="ball_2">07</span>
</span></td>
                				<td class="td4">337,100,116</td>
                			</tr>
                		                			<tr class="bgcolor2">
                				<td class="td1">2013-10-13</td>
                				<td class="td2">
                				                				<a href="/lottery/draw/view/50?phase=2013120">2013120</a>
                				                				</td>
                				<td class="td3"><span class="result">	<span class="ball_1">05</span>
	<span class="ball_1">06</span>
	<span class="ball_1">13</span>
	<span class="ball_1">18</span>
	<span class="ball_1">23</span>
	<span class="ball_1">31</span>
	<span class="ball_2">11</span>
</span></td>
                				<td class="td4">404,684,072</td>
                			</tr>

get请求url如下:

http://baidu.lecai.com/lottery/draw/list/50?lottery_type=50&page=1&ds=2013-09-03&de=2013-12-03

通过上述分析,数据抓取及简单解析过程如下:

public class Test {
  public static void main(String[] args) {
    try
    {
      Document doc = Jsoup.connect("http://baidu.lecai.com/lottery/draw/list/50")
          .data("ds", "2013-01-01")
          .data("de", "2013-12-03")
          .data("lottery_type","50")
          .data("page", "1").get();
      Elements elms = doc.getElementsByClass("bgcolor1");
      String fmt = "日期:%s,期数:%s,号码:%s,销量:%s";
      for (Element e:elms)
      {
        System.out.println(String.format(fmt, 
            e.getElementsByClass("td1").text(),
            e.getElementsByClass("td2").text(),
            e.getElementsByClass("td3").text(),
            e.getElementsByClass("td4").text()));
      }
      elms = doc.getElementsByClass("bgcolor2");
      for (Element e:elms)
      {
        System.out.println(String.format(fmt, 
            e.getElementsByClass("td1").text(),
            e.getElementsByClass("td2").text(),
            e.getElementsByClass("td3").text(),
            e.getElementsByClass("td4").text()));
      }
      
    } catch (IOException e)
    {
      e.printStackTrace();
    }
  }
}


日期:2013-12-01,期数:2013141,号码:03 04 05 25 30 31 04,销量:409,703,546
日期:2013-11-26,期数:2013139,号码:07 08 11 13 21 27 08,销量:372,082,440
日期:2013-11-21,期数:2013137,号码:04 17 19 23 24 27 10,销量:379,293,130
日期:2013-11-17,期数:2013135,号码:09 23 24 25 29 31 12,销量:406,720,240
日期:2013-11-12,期数:2013133,号码:04 07 12 19 22 25 01,销量:361,709,328
日期:2013-11-07,期数:2013131,号码:04 06 12 17 19 26 09,销量:388,319,260
日期:2013-11-03,期数:2013129,号码:05 06 10 14 27 31 14,销量:418,710,844
日期:2013-10-29,期数:2013127,号码:02 03 13 20 22 33 14,销量:376,726,836
日期:2013-10-24,期数:2013125,号码:04 06 08 18 25 28 16,销量:372,984,566
日期:2013-10-20,期数:2013123,号码:01 02 06 11 17 25 02,销量:385,822,278
日期:2013-10-15,期数:2013121,号码:04 05 06 07 25 27 07,销量:337,100,116
日期:2013-10-10,期数:2013119,号码:05 15 20 22 26 32 09,销量:357,071,040
日期:2013-10-06,期数:2013117,号码:09 12 13 24 27 33 16,销量:368,579,726
日期:2013-10-01,期数:2013115,号码:03 12 16 17 18 27 08,销量:319,974,332
日期:2013-09-26,期数:2013113,号码:04 07 11 17 24 33 09,销量:353,992,568
日期:2013-11-28,期数:2013140,号码:01 05 12 13 21 22 10,销量:359,556,480
日期:2013-11-24,期数:2013138,号码:04 15 16 24 27 28 03,销量:402,650,432
日期:2013-11-19,期数:2013136,号码:04 06 14 16 18 26 06,销量:369,164,734
日期:2013-11-14,期数:2013134,号码:01 17 18 19 25 29 10,销量:372,289,714
日期:2013-11-10,期数:2013132,号码:20 21 22 23 25 27 12,销量:420,848,208
日期:2013-11-05,期数:2013130,号码:01 03 15 16 31 33 08,销量:385,080,972
日期:2013-10-31,期数:2013128,号码:07 13 17 19 25 31 08,销量:381,844,688
日期:2013-10-27,期数:2013126,号码:04 10 19 27 31 33 16,销量:408,866,622
日期:2013-10-22,期数:2013124,号码:03 09 15 23 25 30 07,销量:347,249,642
日期:2013-10-17,期数:2013122,号码:07 10 13 15 26 27 11,销量:345,544,080
日期:2013-10-13,期数:2013120,号码:05 06 13 18 23 31 11,销量:404,684,072
日期:2013-10-08,期数:2013118,号码:02 03 17 22 32 33 16,销量:343,511,272
日期:2013-10-03,期数:2013116,号码:12 15 21 26 32 33 07,销量:312,633,700
日期:2013-09-29,期数:2013114,号码:04 06 17 21 23 33 07,销量:398,506,774
日期:2013-09-24,期数:2013112,号码:01 06 12 13 22 31 07,销量:344,881,702


相关文章推荐

使用爬虫获取彩票开奖结果

把彩票看作一个概率游戏,需要收集足够多期的开奖信息来作为分析对象。为了避免每次都手工输入数据,所以想办法用爬虫到网络上获取最新一期开奖数据并保存起来。代码很简单,分成三个部分:1、定时任务 2、网页分...

我的第一个开源App(彩票开奖查询)

源码:https://github.com/feimengwang/lottery 这个App其实2年前就写好了,那时候是抓取的网页里面的内容,也没有用第三方开源框架,写的也比较乱,最近没事的时候发现...

PK10赛车开奖历史记录之高手计划群473727795

丰亿娱乐,高手群:473727795 Monkey学习 一个App的压测实践 手机开发者选项,勾选USB调试手机连接电脑,使用软连接 adb deices查询设备安装测试: adb ...

jsoup 实现在自己的网站中 抓取到 其他网站对自己感兴趣的信息

有时候,我们看见到其他网站上,好的东西总想把它融入到自己的网站中,如何简洁、简单的将感兴趣的内容抓取过来了,别急下面将做详细介绍   1.首先你的到网上去下载到 抓取网页信息所要用到的 jsoup...

scrapy-redis分布式爬取彩票网站信息

准备: 首先,希望学习这篇博文的人具有一定的爬虫知识,或者具备快速学习基础内容的能力,因为有些基础的爬虫知识和内容,需要你们自己加强和掌握,本文基于此基础上,对redis-scrapy框架进行一定的...
  • biteone
  • biteone
  • 2017年08月07日 13:41
  • 131

获取双色球开奖信息加随机摇奖

  • 2013年02月24日 11:37
  • 1.86MB
  • 下载

python抓取历年特码开奖记录

背景: 小时候,有种游戏,两个主人公:白XX和曾XX,每个家庭把他俩像活菩萨一样供着,供他们吃,供他们穿 做生意的老板为了这两位活菩萨,关门大吉 农民为了这两位活菩萨卖牛卖田变卖家产 做官的为...
  • zk65645
  • zk65645
  • 2017年03月05日 20:47
  • 122

python抓取历年特码开奖记录

背景: 小时候,有种游戏,两个主人公:白XX和曾XX,每个家庭把他俩像活菩萨一样供着,供他们吃,供他们穿 做生意的老板为了这两位活菩萨,关门大吉 农民为了这两位活菩萨卖牛卖田变卖家产 做官的为...

双色球开奖信息ACCESS数据库

  • 2011年08月23日 16:54
  • 252KB
  • 下载

python爬取彩票网站开奖号码

一直以来对python特别感兴趣,但却没有一个目标去好好学习这门语言。昨天突然有个想法,老爸喜欢买七星彩,为何不抓取每一期的开奖号码,通过邮件推送给他呢。这样他既能第一时间知道开奖号码了。 然后就动...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:Jsoup初接触-抓取彩票网站历史开奖信息
举报原因:
原因补充:

(最多只允许输入30个字)