爬虫
ノBye~
这个作者很懒,什么都没留下…
展开
-
Java爬虫之Jsoup Document select详解
select详解Document 继承自 Element 类。select方法将返回一个Elements集合。1.通过标签名来查找:测试代码:<span>33</span><span>25</span>select写法:Elements elements = document.select("span");下面的例子都按照上面的格式来写,就不进行重复的标注了。2.通过id来查找:<span id=\"myS原创 2020-07-22 16:25:32 · 7812 阅读 · 1 评论 -
爬虫 对比Java和Python
网络爬虫网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。通俗讲 就是将你在网页上看到的信息通过代码程序自动获取到本地的过程。常用框架:java:webmagic,http://webmagic.io/docs/zh/python:scrapy,http://blog.csdn.net/sunnyxiaohu/article/detai.原创 2020-06-02 17:18:15 · 5031 阅读 · 0 评论 -
jsoup之HTML解析器
jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。在爬虫的时候,当我们用HttpClient之类的框架,获取到网页源码之后,需要从网页源码中取出我们想要的内容,就可以使用jsoup这类HTML解析器了。可以非常轻松的实现。虽然jsoup也支持从某...原创 2019-08-20 16:03:45 · 291 阅读 · 0 评论 -
Fidder4+安卓模拟器实现抓包配置
本文主要介绍fiddler4对安卓模拟器的抓包设置首先在官网下载fiddler4进行安装,然后下载安卓模拟器,这里使用网易的MuMu模拟器。1.fiddler4的设置对于fiddler4的设置,首先打开fiddler,点击Tools-->options-->connections如下图设置端口号点击https,设置HTTPS,该选项是为了设置抓https协议的包,到此fiddler设置完成,关闭重启2.安卓模拟器的设置打开MuMu-->系统应用--&g原创 2020-06-21 19:16:44 · 1687 阅读 · 0 评论