Jsoup爬虫使用记录

最新推荐文章于 2022-09-09 14:15:17 发布

_龙衣

最新推荐文章于 2022-09-09 14:15:17 发布

阅读量731

点赞数 1

文章标签： android api 爬虫聚合数据管理

本文链接：https://blog.csdn.net/itxiaodong/article/details/73046354

版权

学习 Android 到一段时间，想自己做一些项目练练手，需要数据怎么办呢？

- 自己造数据
- 少量的假数据
利用数组或者集合来存储少量数据。

- 大量的后台数据
这里的数据是指，自己获取数据，然后自己实现一个后台管理系统，通过这个系统去操作（增删改查）这些大量的数据。

用第三方的API接口
- 聚合数据（欠我一份广告费）
  大量的接口数据，有免费的有收费的。
- 干货集中营
  代码家大神在维护，种类不多，但是接口格式很标准，使用起来很爽。
爬取数据
- 第三方工具
  我使用过的就是八爪鱼，这个工具使用起来也很方便。但是有的缺点就是在获取网页的图片时，获取不到真正的地址，需要再次整理才能得到图片Url。
- 脚本
  Python听说不错，没学习不好评论。
- 开源工具
  Jsoup，这是最近发现的一个Java爬虫工具。

这里写图片描述
- 使用DOM或者CSS选择器来查找、取出数据

- 对HTML元素、属性、文本进行操作

这里是指Jsoup工具能够对HTML进行增删改查操作

- 清除不受信任的HTML (来防止XSS攻击)

这里写图片描述