【爬虫】爬取某彩票网站的历史数据，并进行分析

最新推荐文章于 2024-08-14 18:25:08 发布

dechan7598

最新推荐文章于 2024-08-14 18:25:08 发布

阅读量4.4k

点赞数 2

文章标签：爬虫 r语言 json

原文链接：http://www.cnblogs.com/wangsiming/p/9657839.html

版权

RT。

闲来无事，随便找了一个玩彩票的网址，突发奇想把历史开奖结果拉取下来，并进行分析，看看有什么规律可以帮助到买彩票的。。

首先使用抓包工具charles, 分析这个历史开奖结果的请求方式。

看似就两个参数，但是实际上还有一个cookies，这个是最关键的，通过分析js代码，发现会有一个登陆接口去拿cookies，也就是sessionId,拿到后，放入这个历史数据接口的cookies就可以顺利拿到数据啦～～～

然而数据的返回并不是json格式的，是html，所以采用了大名鼎鼎的jsoup来直接分析，具体方式可以百度。

这里直接贴源码～

package com.wsm.lottery.JSSC10;

import com.alibaba.fastjson.JSON;
import com.wsm.lottery.dao.LotteryJsscDAO;
import com.wsm.lottery.dao.LotteryJsscDAOImpl;
import com.wsm.lottery.dao.LotteryJsscDO;
import com.wsm.lottery.utils.DateUtils;
import com.wsm.lottery.utils.HttpUtils;
import com.wsm.lottery.model.JSSC10;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

import java.util.*;

public class JSSC10Crawler {

    private static final String JSSC10Url = "**************";

    private static final LotteryJsscDAO lotteryDao = new LotteryJsscDAOImpl();

    public static void main(String[] args) throws Exception{

        String today = DateUtils.getCurrentDate();

        System.out.println(today);

        Date date = new Date();
        int i=20;
        while(i>5){
            Date newDate = DateUtils.addDay(date,-i);
            i--;
            String todayNew = DateUti