![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫专栏
文章平均质量分 91
李晓LOVE向阳
这个作者很懒,什么都没留下…
展开
-
springboot通过自定义注解实现AOP角色权限校验
通过SpringBoot自定义注解实现AOP角色权限校验之前,首先先要了解一下注解的基本知识:Annotation是Java重要的组成部分,从J2SE 5.0时代就已经存在了。在我们的代码中,我们随处可以看到许多注解,例如@Autowired、@Override、@Service。这些注解我们可能非常熟悉,但是注解的作用、工作原理、工作方式以及我们如何自定义注解,我们可能并不熟悉。下面将逐步介...原创 2020-04-02 16:02:57 · 2331 阅读 · 4 评论 -
JWT
JSON Web Token(JWT)是一个非常轻巧的规范。这个规范允许我们使用JWT在用户和服务器之间传递安全可靠的信息。一个JWT实际上就是一个字符串,它由三部分组成,头部、载荷与签名。头部用于描述关于该JWT的最基本的信息例如其类型以及签名所用的算法等。这也可以被表示成一个JSON对象。{"typ":"JWT","alg":"HS256"}在头部指明了签名算法是HS256...原创 2020-04-02 14:17:33 · 1231 阅读 · 0 评论 -
SpringBoot异步调用 实现方式
534545原创 2020-03-30 11:05:10 · 626 阅读 · 1 评论 -
Java 爬虫遇到需要登录的网站,该怎么办?
在做爬虫时,遇到需要登陆的问题也比较常见,比如写脚本抢票之类的,但凡需要个人信息的都需要登陆,对于这类问题主要有两种解决方式:一种方式是手动设置 cookie ,就是先在网站上面登录,复制登陆后的 cookies ,在爬虫程序中手动设置 HTTP 请求中的 Cookie 属性,这种方式适用于采集频次不高、采集周期短,因为 cookie 会失效,如果长期采集的话就需要频繁设置 cookie,这不是一...转载 2020-03-27 16:19:49 · 1234 阅读 · 2 评论 -
Java 爬虫遇上数据异步加载,试试这两种办法!
爬虫工具根据Xpath路径解析网页时,如果页面是异步加载,则无法获取到js渲染后的界面。这样我们通过XPath路径则定位到具体对象。对此类问题的解决方案有两种。第一:内置浏览器内核内置浏览器就是在抓取的程序中,启动一个浏览器内核,使我们获取到 js 渲染后的页面,这样我们就跟采集静态页面一样了。这种工具常用的有以下三种:Selenium HtmlUnit PhantomJs这些工...转载 2020-03-27 15:22:31 · 1158 阅读 · 0 评论 -
HtmlCleaner无法通过XPath获取到数据
通过浏览器F12,选取的Xpath路径有时无法定位到目标即:objects为空,无法通过XPath获取到数据。原因分析:不同浏览器获取到的XPath不同 XPath路径中有tbody标签 Xpath路径有html,示例: Xpath: /html/body/div[2] 希望获取的数据是动态加载的Xpath路径规则介绍:语法选取结点表达式 描述 ...原创 2020-03-27 14:35:50 · 369 阅读 · 0 评论 -
爬虫工具:浅谈HtmlCleaner+XPath解析HTML
现在常用的网页解析工具有:Jsoup,JsoupXpath,HtmlCleaner。jsoup 是一款Java 的XML、HTML解析器,可直接解析某个URL地址、HTML文本内容和已经存在的文件。JsoupXPath是基于Jsoup的拓展,使用路径的形式解析XML和HTML文档。核心类为JXDocument;JsoupXPath的节点对象JXNode不仅可以获取标签节点,还可以获取属性节...原创 2020-03-27 14:10:25 · 642 阅读 · 0 评论