Huginn监测网页变化并推送

最新推荐文章于 2024-05-14 16:00:00 发布

Flutter&Python&Test

最新推荐文章于 2024-05-14 16:00:00 发布

阅读量749

点赞数

本文链接：https://blog.csdn.net/MidSummer411/article/details/109251648

版权

本文介绍如何利用Huginn监控图灵社区每周特价页面的更新，通过分析页面XPath找到书籍信息的规律，并配置Huginn的options进行抓取。接着设置Slack agent实现内容推送，展示了一种自动化获取和通知网页变化的有效方法。

摘要由CSDN通过智能技术生成

以图灵社区每周特价页面为例: https://www.ituring.com.cn/tag/36527

抓取内容

这个页面每周一都会更新三个半价电子书,先分析页面xpath,找出规律.

复制后粘贴,可以看到三本书的xpath分别是:

//*[@id="tag-book"]/div/ul/li[1]/div[2]/h4/a

//*[@id="tag-book"]/div/ul/li[2]/div[2]/h4/a

//*[@id="tag-book"]/div/ul/li[3]/div[2]/h4/a

只有中间的li[]内容不一样.

因此options部分,xpath部分可以用li[*]匹配所有情况.可以这样写:

{
  "expected_update_period_in_days": "2",
  "url": "https://www.ituring.com.cn/tag/36527",
  "type": "html",
  "mode": "on_change",
  "extract": {
    "url": {
      "xpath": "//*[@id=\"tag-book\"]/div/ul/li[*]/div[2]/h4/a",
      "value":

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Flutter&Python&Test

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Huginn中常用的Agent

weixin_43870034的博客

02-04

298

这个Agent可以生成PhantomJs的链接，用于解析全文，但是要配合 PhantomJs的账号一起使用。是抓取网站的工具，可以解析网页、XML文档和json数据的节点。可以在以下网站申请 PhantomJs的账号，一天免费500次。

网页监控更新工具

06-14

python开发的网页监控更新工具，可以对指定的网页进行监控，只要网页内容有变化，就可以给出发生差异的详细结果。运行环境win7+python2.7.3.

参与评论您还未登录，请先登录后发表或查看评论

监控网页变化提醒

u012057217的博客

03-04

6104

工作中，我们经常要关注着网页某一区域的变化，需要变化后第一时间知道。如果人工一直手动刷新监控，非常费神，这次，我们就教大家使用《网页自动刷新监控工具》监控网页某一区域变化，如发生变化，就弹窗提醒。给大家看看我们要监控的网页这个网页，我们需要在有收益率大于5%的时候报警提醒，应该怎么设置呢？接下来，就教大家怎么设置。首先，打开我们的《网页自动刷新...

【实用】网页内容监控并实时推送百度解决方案

WEB视界

08-30

1360

网页监控检测网页变化同步推送百度

u010453349的博客

09-25

473

网站发布新内容了，需要即时同步推送至百度，有没有不用改源码就能实现的方法呢？可以利用网页监控来检测网页的变化，当发现有新内容的时候，就将网站的新产出内容推送至百度。网页监控原理 web视界利用爬虫技术，将一批网站列表页纳入网页监控服务，最快实现分钟级别的扫描粒度。扫描粒度可根据自身网站的实际情况来设定，当网站更新内容的频率很高，那么就可以把扫描粒度设置小点，反之。操作步骤打开网页监控...

huginn website agent对提取结果排序

weixin_30706507的博客

01-02

348

当配置好huginn的website之后，想给提取的内容排个序，那就用下面这堆代码，因为官网里也这么说的， "events_order": [ [ "{{date_published}}", "string", "true" ] ] 但是如果配置完报下面的错误，那就惊喜了， 1 error prohibited this Agent from being saved:- ...

huginn_agent:Huginn代理商WIP

05-11

现在，在您的Huginn应用程序中，使用以下config/initializers/huginn_agent.rb创建config/initializers/huginn_agent.rb ： require 'huginn_agent' HuginnAgent . hack_huginn_to_accept_me HuginnAgent . types ...

Ruby-Huginn是一个系统用于构建代理能够在线为你执行自动化任务

08-15

Huginn提供了丰富的内置Agent类型，包括但不限于：网页抓取、Twitter监听、电子邮件发送、天气预报检查等。用户可以通过简单的配置或编写自定义Agent来扩展其功能，使得Huginn能适应各种自动化需求。在Huginn中，...

Huginn-RSS

03-15

Huginn-RSS

网页内容变动简易监视器

04-11

tb_url.Text = tb_url.Text.Trim(); System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create( new Uri( tb_url.Text)); System.Net.HttpWebResponse response = (System.Net.HttpWebResponse)request.GetResponse(); System.IO.Stream responseStream = response.GetResponseStream(); System.IO.StreamReader sr = new System.IO.StreamReader(responseStream, Encoding.UTF8); string content_start = sr.ReadToEnd(); textBox1.Text = content_start; tb_time.Text =tb_time .Text .Trim(); lb_count.Text = tb_time.Text; timer1.Interval = Convert.ToInt16(tb_time.Text) * 1000; timer1.Enabled = true; timer1s.Enabled = true; listBox1.Items.Add(DateTime .Now .ToString ()+"监视开始！");

怎么打开网卡rss_RSS 进阶篇：Huginn - 真·为任意网页定制 RSS 源（PhantomJs 抓取）...

weixin_28803105的博客

01-13

1742

定制网页RSS源主要有FEED43和Huginn两种方法。FEED43：简单免费，六小时抓取一次，每次抓取20条静态页面。使用攻略- RSS 入门篇：FEED43&FeedEx-为静态网页定制 RSS 源2. Huginn：自由度高，可设定抓取频率、内容结构、js结果、输出样式等；需要搭建服务器，学习Huginn抓取规则。不愿意搭建或有其他需求，可以1v1咨询。Huginn 准备工作：准备...

从0开始搭建Huginn定时监控黄金价格脚本

路漫漫其修远

10-23

403

整体流程如下: 1. Post Agent部分 Schedule 选择Every 5h,代表每隔5小时自动运行一次. Receivers 选择解析黄金价格的JavaScriptAgent { "post_url": "https://www.g-banker.com/price/query", "expected_receive_period_in_days": "1", "content_type&qu

Huginn搭建教程指导

chaobin6的博客

06-21

5602

1、开源项目介绍：可以实现实现某页面更新的追踪，从而产生rss订阅文件，然后自己下载rss阅读器进行查看。2、好了，靠谱的教程在这里，只需要按照我所给的教程搭建即可，没有坑。服务器版本：Ubuntu 14.04 x64其他版本的服务器另找教程，出现问题概不负责。按照这个教程一步步进行就好。https://github.com/huginn/huginn/blob/master/doc/manual...

使用Huginn打造自动化信息处理中心

XBlithe的博客

04-20

6717

一.Huginn简介在北欧神话中，奥丁的肩膀上坐着两只乌鸦，一只名叫 Huginn，一只名叫 Muninn。这两只乌鸦告诉奥丁他们的所见所闻，毫无遗漏。奥丁在黎明时派出它们，它们飞遍全世界然后在晚餐之前回来汇报，因此，奥丁能知晓很多事情。在Huginn的项目主页上，作者对它有详细的介绍。我们同样可以通过Huginn创建不同的代理，通过这些代理发送HTTP请求获得相关数据，然后将获取到的数据进行处理，就可以在互联网上面收集到各类我们需要的信息了。通过Huginn我们可以比较方便的实现如下功能: 监控你关心

使用Huginn批量订阅微信公众号

luxinfeng的博客

03-04

8214

今天给大家安利一个神器——Huginn,这是一个开源项目：英文官网地址,中文社区地址. ! 我要介绍的是其中的一个功能：抓取网页信息并输出为RSS订阅源。之所以使用这个工具，是因为在手机上阅读微信公众号上的体验太差了。而且我始终认为手机是一个娱乐+通讯工具，而不是生产力工具。为了提高效率，对于一些干货较多的信息，应该在电脑上阅读（而且对视力好一些），所以就开始寻找有没有一个好的办法来在电脑上阅读微...

网页变化监测器