
Java爬虫
文章平均质量分 92
包含python爬虫和java爬虫一些记录
程序员bigsai
坚持分享学习,写了一本原创数据结构与算法pdf分享给大家。
展开
-
浅谈网络爬虫
浅谈网络爬虫 什么是网络爬虫? 爬虫能干什么 搜索引擎 抢票、刷票等自动化软件 部分破解软件 金融等行业数据挖掘、分析数据来源 其他 爬虫很简单 语言的选择 两种语言的小demo 爬虫也不简单 ip、浏览器头(User-Agent)、和cookie限制 需登录的验证码限制、参数限制 JavaScript渲染/ajax加密 爬虫知识储备路线 1.基础语法: 2.正则和爬虫相关库,以及浏览器F12...原创 2019-06-11 21:58:11 · 13933 阅读 · 16 评论 -
模拟教务评教(强智教务)—一件评教实现原理
前不久,学校有个校园帮助型app某某圈因为一件评教功能被教务批评了。现在有很多查成绩,查课程的app,他们的实现原理到底是啥了。这两天来到发小扬州这边,学习实现了这个功能,并且用java和python都写了一下,但是鉴于web端只会java,最后集成到springboot部署到服务器提供的小服务。 以前只知道这些东西是爬虫爬出来的,原本以为非常简单,自己研究了一下发现还是有很多的坑和坎。大...原创 2019-01-17 21:55:56 · 5345 阅读 · 0 评论 -
java爬虫下载付费html网页模板
前一段时间我们有一个网页的projiect小项目,要求学习bootstarp。然而自己写的模板和别人写好的东西,无论从美观和手机运行的兼容性上差距都很巨大。中途我们放弃自己写的东西,开始偷别人的模板。有些甚至不会偷的同学甚至还付费下载,都什么年代了,程序员还要花钱买模板。那次结束后,突发奇想能不能写个程序,让他自动下载模板。经过不断努力和解决bug,最终取得了成功。 大致思路为:输入模板的一个...原创 2018-06-28 17:24:10 · 4618 阅读 · 0 评论 -
用java爬取杭电oj已ac代码
前言 电脑的硬盘突然坏了,新安装的eclipse的代码全没了,后来发现杭电上已经ac的代码可以查看到,我是个有强迫症的人,我宁愿做很多件不同的事也不愿意做一件相同的事(复制黏贴)许多次,所以就突发奇想,做个爬虫爬取已经ac的代码。 实现 首先打开杭电的首页,这里有我想要的信息 这里,解决的问题的序列号事我们想要的。查看网页源码 就在这里找到我们想要的信息,我们要将他存下来,然后...原创 2018-05-07 12:28:46 · 3220 阅读 · 0 评论 -
爬虫初识jsoup
学习了几天爬虫,发现jsoup这款工具非常好用。对于初学者解析html文件方便,可以满足简单的要求。首先jsoup要下载jar包,然后配置路径添加外部jar文件。。代码就已我的博客为例。参考jsoup中文APIElements这个对象提供了一系列类似于DOM的方法来查找元素,抽取并处理其中的数据。具体如下:getElementById(String id)getElementsByTag(S...原创 2018-04-22 22:14:20 · 2999 阅读 · 0 评论 -
java爬取斗鱼:与虎牙对比
看了下斗鱼的基础页面,感觉和虎牙的有点像,但是实际上确有点不同。 首先想要获取页数,看了斗鱼的html页面,发现却不显示页面。 这是因为斗鱼把界面藏在了js页面中,谷歌浏览器的右击检查 那么接下来就是选取一款可以解析js的工具并且提取里面的信息了。jsoup不支持js的提取,我们用htmlunit实现。抓取页面数。 / 详细看代码 / 假设我们已经获取了页面总数,下一步需要...原创 2018-04-26 17:26:10 · 5242 阅读 · 0 评论 -
爬取虎牙之三:通过json数据获取所有直播情况
动态ajax页面为什么会再同一个页面有多个分页,就是因为当你点击其他页的时候服务器返回一串json串,js执行json参数达到改变页面效果。下面说说如何抓取json串。 1:爬取信息要对源页有所了解,首先打开虎牙直播,谷歌F12选取network。点xhr。里面可能会有多个json文件,点击第三页。 发现点击第三页后会出现一个新的json串。点击看下 会发现服务器返回的数据就是这个...原创 2018-04-26 15:39:02 · 13860 阅读 · 1 评论 -
CSDN登录机制分析(附上python、java代码)
大纲 前言 分析加密参数 uaToken webUmidToken 发送模拟请求 对比解决障碍 浏览器发送 postman模仿 小结 编写代码 前言 很久以前研究过csdn的模拟登录,记得那个时候的csdn登录还是一个`form``表单,然后参杂着一些参数。使用遍历input元素把表单各个参数拿下来。存下直接post即可登陆成功。 前几天再次看了下亲爱的csdn。突然发现...原创 2019-07-15 00:40:45 · 4504 阅读 · 7 评论