java爬取某眼查并存入excel中

功能:

自动读取comyang.txt文件中的公司名进行搜索
把搜索到含有公司详细信息的html保存在info文件夹
把html文件中的信息提取到excel表格中
判断是否出现机器人验证
断点续查(关了再打开不会重复查询)


缺点:

无法跳过机器人验证
程序分为两个执行文件,不是一键完成
偶尔会卡住(请求没有响应)

问题记录
 

登录问题:一开始没有登录,查询的时候总是被拦截跳转到登录页面。在浏览器上登录,复制cookie信息,在代码中设置即可。
机器人验证:据我观察,同一个IP调用天眼查网站上的接口大约100次就会出现一次机器人验证。虽然很想自动完成,但是能力有限,实现不了,后来想想采取了一个折中的方法,在代码里面检测是否出现机器人验证。当出现机器人验证的时候,打印验证的地址,程序暂停。等待人工完成验证后,输入OK再继续往下执行。
程序卡住:不知道是代码问题还是,网站的问题。每查询一百多个公司的时候,总会有个请求等不到响应,一直在等待。虽然做了处理,把程序关了再打开还是会继续往后查询,但是挺纠结。以后再处理。
图片编码:试着破解机器人验证的过程发先一个挺有意思的地方。天眼查网站的机器人验证是点选汉字的方式,页面中有两张图片。这两张图片有个比较有意思的地方是采用Base64编码的方式进行传输的。也就是把汉字转为字符串的形式,以前不知道还有这种操作。


依赖jar包


httpclient:模拟发起HTTP请求
jsoup:解析HTML
poi-ooxml:Excel表格操作


关键代码


设置请求头:非常关键,需要把登录后的cookie信息复制在这里设置,不然调用接口的时候会被拦截跳转到登录页面。

/**
     * 设置请求头
     * @param httpGet
     */
    public static void setHttpHeaders(HttpGet httpGet) {
        //设置默认请求头 在浏览器登陆后,把cookie的内容复制到这里设置cookie,不然无法查询
        httpGet.setHeader("Cookie","");
        httpGet.setHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8");
        httpGet.setHeader("Accept-Language", "zh-CN,zh;q=0.9");
        httpGet.setHeader("Connection", "keep-alive");
        httpGet.setHeader("Host", "www.tianyancha.com");
        httpGet.setHeader("Referer", "https://www.tianyancha.com/");
        httpGet.setHeader("Upgrade-Insecure-Requests", "1");
        httpGet.setHeader("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36");
    }

下面是全部的代码:

package cn.xiaoyanol.crawler;

import org.apache.http.HttpEntity;
import org.apache.http.HttpResponse;
import org.apache.http.HttpStatus;
import org.apache.http.StatusLine;
import org.apache.http.client.HttpClient;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.client.protocol.HttpClientContext;
import org.apache.http.impl.client.HttpClientBuilder;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.*;
import java.net.URI;
import java.util.ArrayList;
import java.util.List;
import java.util.Random;
import java.util.Scanner;

/**
 * Created with IntelliJ IDEA.
 * Description: 利用天眼查网站查询指定公司的工商信息
 * @Author: jenrey
 * @Date: 2018-10-16
 * @Time: 下午5:09
 */
public class TianYanChaCrawler {
    public static void main(String[] args) throws IOException {


        //要获取信息的公司名单
        File companyFile = new File("company.txt");
        FileReader fileReader = new FileReader(companyFile);
        BufferedReader bufferedReader = new BufferedReader(fileReader);
        List<String> companyNameList = new ArrayList<String>();
        String companyName = null;
        while ((companyName = bufferedReader.readLine()) != null) {
            companyNameList.add(companyName.trim().replaceAll(" ", ""));
        }
        bufferedReader.close();
        fileReader.close();

        //创建文件夹存储含有公司详细信息的html页面
        File directory = new File("info");
        if (!directory.exists()) {
            directory.mkdir();
        } else {
            //过滤已经查询过的公司
            String[] fileNameList = directory.list();
            for (String fileName : fileNameLis
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值