![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 74
起风哥
这个作者很懒,什么都没留下…
展开
-
写爬虫被字体反爬了怎么办?
通过观察发现,html的中乱码需要使用该站点提供的字体文件进行渲染,该站点自定义了一套字体和自定义的unicode的规则进行映射。有个朋友写的爬虫,遇到个问题,就是爬回来的数据文字中有很多表情符号,拿到的html文档又有很多字是乱码?此时我们就得到一个自定义unicode对应字符的编码映射字典,在根据这个映字典去解析html中对应标签的内容即可。新建目录存放你下载的字库文件。对应的字体解析工具开源项目。离线ocr我们也开源项目。直接引入maven包即可。是不是so easy!原创 2022-09-29 21:03:40 · 783 阅读 · 0 评论 -
如何30分钟爬取网络30万数据
最近接了个需求,从某站点爬取30万数据回来,并对每条数据在获取明细。那么如何半个小时内让你的程序完成这个工作呢?这是个很有挑战性的工作。开始着手分析,此数据是分页得,每页10条,每条数据有30个字段,明细又有10个字段。明细接口需传当前数据得id标识获取。提取回来得数据为json格式。分析完数据,就开始着手准备,首先先获取一页数据,获取回来为个json数组,那么拿这个json数组在Idea中使用GsonFormat(Idea 插件)生成实体类,并获取一条详情数据,同样生成一个实体类。接下来引入hut原创 2021-01-01 01:57:13 · 744 阅读 · 0 评论 -
java五行代码爬到文章列表
是门语言就能做爬虫,早期写爬虫的时候就用最简单的脚本语言TC,直接使用系统底层组件,速度上快,但是大部分普通爬虫可能对快没有什么概念。所以无所谓快不快,但是系统底层组件来抓数据,就需要自己用正则去解析document。1、关于文档解析,java中有直接给你封装了html文档解析的包jsoup,jsoup使用起来也很简单。它使得你能像jquery操作document那样操作请求回来的html。2、关于http请求可以使用hutool工具包,hutool 你可以做简单的扩展将cookie保存到redis或者原创 2020-06-29 16:58:53 · 283 阅读 · 0 评论