JAVA爬虫抓取百度指数思路总结

最新推荐文章于 2024-08-20 23:19:05 发布

平凡之路999

最新推荐文章于 2024-08-20 23:19:05 发布

阅读量1k

点赞数

分类专栏：爬虫文章标签：爬虫百度指数抓取 java 百度

本文链接：https://blog.csdn.net/zhangwei3781871/article/details/78915597

版权

做了一个多月的JAVA爬虫爬取百度指数的项目，发现出现了很多问题，总结如下：

抓取百度指数的整体思路：

1、首先得模拟登陆百度账号（用selenium+PhantomJS模拟登陆百度，获取cookie）

2、由于有该死的验证码，因此我们要绕过验证码，保存cookie模拟登陆（绕过万恶的验证码）

3、然后模拟登陆以后，程序截取屏幕保存到本地图片。（屏幕截屏）

4、读取本地图片。（读取图片）

5、找到搜索指数所在区域，裁剪图片。（裁剪图片）

6、下面就是进行图像识别，或者说验证码识别了。（去灰度化，二值化，图像识别）

问题一：百度指数具体的数字竟然是图片！！！每一个数字竟然都是一个图片！显然，常规的思路已经无法驾驭百度指数了

解决思路：采用Python的图像识别包来识别并爬取百度指数

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

平凡之路999

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

AI在电商中的应用系列文章

程序员光剑

10-03

1025

作者：禅与计算机程序设计艺术随着互联网的发展和普及，越来越多的人把目光投向了电子商务这个新领域。许多企业都希望通过这个平台让顾客得到更高品质的服务和体验，从而实现自己的盈利目的。同时，电商也受到了人们的青睐，它给用户带来的便捷感、快速购买、低廉价格以及便于使用的优点，都令人印象深刻。基于这些原因，当下越来越多的企业开始在电商中积极布局，而在大数据、人工智能等新兴技术的驱动下，许多电商公司也纷纷开始了探索和尝试，尝试利用人工智能技术来提升产品的个性化推荐、商品分类以及品牌营销等方面。然而，对于如何将电商中的人

基于Selenium与图像识别的百度指数爬虫

NonAmest的博客

09-21

7665

在参与一个项目的时候，得到了这样一个需求，需要我用爬虫爬取某个关键词的百度指数，而当我打开网址后http://index.baidu.com/，简单登陆输入关键词后，发现事情并不那么简单。

1 条评论您还未登录，请先登录后发表或查看评论

Java爬取百度指数

jxii的博客

06-24

611

由于在实际的应用中，也可能会使用到Java来获取百度指数的数据，结合我的前一篇博客（https://blog.csdn.net/weixin_43933556/article/details/118163875），整体思路大致一样，在SpringBoot的测试类中编写单元测试完成数据的获取。本次使用HuTool工具的HttpRequest类发起请求，使用org.json.JSONObject和JSONArray类对返回的JSON数据进行解析，由于Java中目前我对JSON数据解析掌握的知识有限，暂时只能一

百度热搜及热度指数

最新发布

2301_77455812的博客

08-20

509

爬取百度热搜及指数

百度指数java_百度指数爬取

weixin_42519781的博客

02-28

604

1.为什么做这个今天一个朋友问能不能拿到百度指数的折线图数据，便上网查了相关资料，参考了网上的一位作者，链接地址：http://www.pianshen.com/artic...，教了朋友怎么拿数据。2.观察经过观察，百度指数并没有返回包含真实数据的json文件，而是加密过后的数据，但是为了渲染，在前端应该有对应的解密代码。3.实验实验工具：谷歌浏览器请求截图发现请求的返回数据中返回了：data及...

Java爬虫入门——爬取百度热搜

wzc3614的博客

02-23

1536

Java爬虫入门——爬取百度热搜

百度指数分析

weixin_33896726的博客

01-13

363

...

模拟面试面试题汇总

u011526274的博客

04-27

2960

模拟面试面试题汇总第一轮面试题一、描述下数据库中的事务--ACID各个的特点。原子性：事务中的操作要么全部成功要么全部失败。一致性：事务前后数据的完整性必须保持一致。隔离性：多个并发的事务之间是相互隔离的，互不干扰的。持久性：事务提交后，数据是永久改变的。二、什么是springboot？你们公司是用的哪个版本？ SpringBoot是Spring推出用于解决传统框架配置文件冗余,装配组件繁杂的基于Maven的解决方案,旨在快速搭建单个微服务。版本号：2...

大数据技术之高频面试题

XIAOMO__的博客

11-12

9019

第一章项目涉及技术 1.1Linux&Shell 1.1.1 Linux常用高级命令序号命令命令解释 1 top 查看内存 2 df -h 查看磁盘存储情况 3 iotop 查看磁盘IO读写(yum install iotop安装） .

国内高校大数据教研机构调研报告

数据派THU

06-11

1964

本篇报告由清华大学大数据研究中心独家支持（原清华-青岛数据科学研究院发起），清华大学新闻传播学院博士后何静（沈阳教授团队）发布，研究内容主要围绕国内高校大数据教研机构的发展现状、教育科研水...

利用java实现从百度网站上获取搜索数据

06-19

使用前，导入lib文件夹下的包，点击运行就可以了。而且可以利用此程序设计SO-PMI算法的实现。获得百度搜索数的同时得到两个词语的极性

Python-百度指数爬虫可以自定义时间段抓取百度指数非模拟浏览器操作

08-12

百度指数爬虫, 可以自定义时间段抓取百度指数,非模拟浏览器操作,抓取百度指数的另一种思路

百度指数爬去

weiloser的博客

08-08

792

工作好几天了，第一个任务微信，第二个就是百度指数。俩个都成功完成。但是难度是相当的大。百度指数也算是半成平吧！！！不过也挺自豪！！最终实现批量！！嘻嘻！！这条曲线挺优美！！百度指数！！

百度指数爬取工具

LoveAnnuoa的专栏

05-05

9747

该工具由本人独立开发，如果有数据需求，欢迎骚扰。注意：免费！免费！免费！百度指数爬取工具-简书

[Java]知乎下巴第1集：爬虫世界百度不仅仅可以拿来测网速

热门推荐

汪海的实验室

12-27

2万+

上一集中我们说到需要用Java来制作一个知乎爬虫，那么这一次，我们就来研究一下如何使用代码获取到网页的内容。首先，没有HTML和CSS和JS和AJAX经验的建议先去W3C（点我点我）小小的了解一下。然后，接下来我们需要用Java来爬取一个网页的内容。这里就涉及到一个GET访问和POST访问的问题。一般来说，我们访问网页都是GET访问，也就是简单的页面浏览，不会产生副

百度指数爬取

niu_yifan的博客

11-28

793

有分析需求需要一个能够衡量歌星或乐队影响力的指标。首先爬取了新浪微博相关主体的粉丝数量，这里有一个问题就是有的明星影响力很大但并不用微博，导致微博的粉丝数量并不多，如：周杰伦。为解决这一问题，又去爬取了百度搜索和头条指数，在爬取过程中遇到一些问题，特此记录一下。使用的是python的requests。其中共有2个坑，1是url中的params的编码，另一个是请求头中的Cipher-Text参数。

JAVA爬取百度数据

weixin_42596530的博客

01-22

1283

package com.bonc; import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.FileReader; ...

手写java爬虫爬取url对应文章的阅读量和评论量

u013558123的博客

05-14

649

手写java爬虫爬取url对应文章的阅读量和评论量

Java实现爬虫抓取网页数据示例代码

Java 实现爬虫抓取资料示例 Java 实现爬虫抓取资料示例是指使用 Java 语言编写的爬虫程序来抓取互联网上的资料。该示例程序使用 Java 的多线程机制来实现爬虫的并发抓取，提高了爬虫的效率。知识点 1： Java 多...