java爬虫
文章平均质量分 94
张德仁
一切都是兴趣驱使我搞事情,也是因为有趣才会更加投入搞事,我的人生就是搞事的人生,我的博客就是搞事的博客
展开
-
[Java爬虫]利用jsoup爬虫实现网站自动签到--举例B站、CSDN、某库自动签到与通过反爬手段解决XSRF-TOKEN验证
之前就常常使用jsoup方法写爬虫,也爬过很多国内外有的没的资源,因为可以应对大部分静态页面与大部分接口,可以说十分方便,当然因人而异各有所好的工具和方法本篇文章教大家使用jsoup方法实现自动签到功能(当然这个方法十分简单,但简单的同时也很便捷)原创 2021-07-30 19:49:41 · 1582 阅读 · 4 评论 -
[完整爬虫]java爬虫基础对36Kr快讯数据进行爬取以及数据筛选过滤
36Kr 也叫36氪,是一个我非常喜欢的网站,网罗天下资讯,而且页面整洁资讯一目了然,极大的开拓眼界,许多不管是金融方面科技方面我感觉是最新最全面,当然最终是准备爬取一下上面的资讯,当然是不会对对方服务器造成压力的情况下进行的爬取.原创 2019-10-24 15:41:58 · 997 阅读 · 1 评论 -
[java爬虫][填坑ing]IO流,数据库对爬虫的重要性
java爬虫中IO流可以节省时间,使用IO流可以加快编写数据解析逻辑的速度,爬取到的数据在何时入库,在程序出现异常而中断时如何保护数据,程序在异常后继续执行需要怎么做,讲一讲java爬虫中会遇到的问题原创 2019-10-24 09:43:14 · 251 阅读 · 0 评论 -
[java爬虫] [填坑ing] 爬虫解析数据方法
话不多说直接干货目录筛选方法String数据解析先说一下关于筛选我用的比较多的是String的查找下标以及根据下标进行截取来达到把数据从源码中剥离出来当然这种方法也不是很完善的我们慢慢说筛选方法1.正则表达2.xpath3.还有我用的String方法正则表达比较简单明了,而且可用于多平台,多语言,但要求正则表达掌握的比较熟...原创 2019-10-12 16:28:42 · 386 阅读 · 0 评论 -
[java爬虫]预告_我脱坑这么久了,头发秃了但更强了,所以我回来了
我回来了,嗯,自己开心一下就可以了. 并且开一个大坑,关于java语言写爬虫工具的. 之后我会过经常写一些有趣的爬虫项目import java.io.IOException;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;public class test ...原创 2018-11-15 22:34:26 · 169 阅读 · 0 评论 -
[java爬虫]序章-我与爬虫的故事
最开始我接触爬虫是在去年年末的时候,因为发现了一个非公开网站的小瑕疵,只需要改变地址栏的url中的id值就可以查看其他人私有的文章,原则来说一个严谨的网站不会犯这样的错误,当时也是学了java语言,我去问我的讲师,也从讲师那里得知了爬虫这项技术,并且讲师也鼓励我放手去做,之后业余时间在网上疯狂的查找相关技术去学习,不断的去练习.从获取全部源码到可以筛选想要的信息.从单一的获取文字信息到下载...原创 2018-11-16 16:43:29 · 163 阅读 · 0 评论 -
[java爬虫] 一.从哪里开始到哪里开始要哪里开始
我不想一边又一遍的讲爬虫是什么,我写这个系列的目的:1.首先,打破大家学习新事物的误区;我认为能看到我博客的人大部分都是成年人,成年人的时间是不多的,宝贵的,所以不能再像以往上学时从基础开始.2.其次我要写博客就要写干货;直接从数据上下手,将内容都以"模块化"书写并使用.3.将我的所学(自学)的内容分享出来;可能真正的高手与大佬会认为我写的会比较简单基础繁琐,也欢迎各位指出我的错误,在...原创 2018-11-20 08:57:26 · 447 阅读 · 0 评论 -
[java爬虫]爬虫方法与基础网页爬取,数据筛选.
话不多说直接干货目录爬取方法main方法爬取的网站源码筛选方法实际数据筛选源码以及所用的包结束我用到的jar包为jsoup-1.11.3.rar(这个包我会再最后留下分享链接)只要是静态网站我用的都是这个包进行爬取.爬取方法//爬取方法,传入网站网网址,返回爬取的所有源码以String类型public Document doc ...原创 2018-11-25 11:04:18 · 1976 阅读 · 2 评论