golang幽灵蛛(pholcus)(一)

最近开始重拾golang语言的原因

golang语言c语言的运行速度,Python的开发效率。

tensorflow支持golang了,预估国内会有一些人开发深度学习软件了,会火一把,估计Google亲爹应该不会抛弃它了。

gota快要支持日期时间型了,可以实现数据清洗了。

还有一些数据挖掘的包,我还没用过,但是慢慢的会稳定。

幽灵蛛(pholcus)一套稳定的爬虫架构,支持分布式。

还差可视化包了,有谁知道好的包求推荐????????????????????????

下面步入正题,幽灵蛛入门:

怎么运行,我给大家截图一下我自己的文件结构吧,让我详细说 我也说不清楚:

 golang项目中最主要的就是src文件夹了,这个文件夹是自动创建的,src上gopath里的。其中pholcus文件夹我是直接从github上下载的。

github.com文件夹截图如下:

页面解析文件都放在pholcus_lib下,如果你想自己写爬虫,也是维护到这个文件夹下。

main.go文件是从example_main.go改的。编译并运行mai.go文件。浏览器自动弹出一下界面,按照截图进行设置,点击开启:

 

进入爬虫任务页面,按红框设置,分批输出限制100是为了可以很快的看到输出是啥样子的。

 

运行log:

可以暂定和停止。

 文本输出文件在文件夹E:\project\goproject\golearn\src\pholcus\pholcus_pkg\text_out中,如果停止后想再次进行启动进行爬取 需要先删除history:E:\project\goproject\golearn\src\pholcus\pholcus_pkg\history (也可以通过设置“集成并保存成功记录为False”)

 在页面解析文件的go文件中,可以直接进行print测试,如下图:当然这种测试太麻烦了,还要启动浏览器啥的,但是目前还没找到其他的测试方式 先这么着 ,我再去探索一下,如果哪位朋友知道,请赐教????????????????????

 

下面我们来看看输出的结果形式:

 第5行的内容是空,这证明页面解析没有解析出“内容”值,可能是页面改版了,以前的元素不存在了,

csv文件,第一行是列名,对应people.go文件中的以下代码

当前链接,上级链接,下载时间  应该是系统自动添加的。

 

 这是目前学习到的只是,杂乱无章。

 

转载于:https://www.cnblogs.com/SSSR/p/6343647.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 如果你想让 golang 的 cron 只执行一次,可以使用 time.AfterFunc 函数来实现。该函数可以在指定的时间后执行一个函数,然后只会执行一次。具体实现可以参考以下代码: ``` package main import ( "fmt" "time" ) func main() { fmt.Println("Start") duration := 5 * time.Second time.AfterFunc(duration, func() { fmt.Println("Execute after 5 seconds") }) time.Sleep(10 * time.Second) } ``` 在上面的代码中,我们使用了 time.AfterFunc 函数来在 5 秒后执行一个函数。然后我们使用 time.Sleep 函数来等待 10 秒钟,以确保程序不会退出。当程序输出 "Execute after 5 seconds" 后,程序即退出。这样就实现了 golang cron 只执行一次的功能。 ### 回答2: Golang的cron库用于在指定的时间间隔内执行计划任务。默认情况下,它会在每个时间周期内重复执行任务。然而,如果我们想要让cron只执行一次,可以使用以下方法: 1. 使用时间定时器:可以使用Golang的time包中的定时器来实现只执行一次的效果。首先,创建一个定时器,然后在定时器的回调函数中执行需要执行的任务。在回调函数中,我们可以添加一些逻辑来确保任务只执行一次。 ```go func main() { // 创建一个定时器,并设定时间间隔为1秒 timer := time.NewTimer(time.Second) // 在定时器的回调函数中执行任务 go func() { <-timer.C // 执行任务的逻辑 fmt.Println("执行任务") }() // 让主goroutine等待一段时间,以确保任务有足够的时间来执行 time.Sleep(time.Second * 5) } ``` 使用定时器,我们可以精确地控制任务只执行一次。在上面的例子中,任务将在等待5秒后执行一次。 2. 手动控制执行次数:我们也可以手动控制任务执行的次数。通过在任务的主体代码中添加一个计数器,每次任务执行时对计数器进行检查并决定是否继续执行。 ```go func main() { count := 0 maxCount := 1 for count < maxCount { // 执行任务的逻辑 fmt.Println("执行任务") count++ } } ``` 在上面的例子中,我们设置`maxCount`为1,以确保任务只能执行一次。 这些是实现Golang cron只执行一次的两种方法。你可以根据自己的需求选择其中之一来实现。 ### 回答3: golang的cron库(如go-cron或cron)可以用来在指定的时间间隔执行任务,但默认情况下它们会周期性地执行任务,而不仅仅是执行一次。 如果你想要只执行一次任务,你可以通过以下方式实现: 1. 使用一次性任务:你可以创建一个定时器,设置一个特定的延迟时间,在指定的时间后执行你的任务,然后程序结束。这样就可以保证任务只会执行一次。示例代码如下: ```go package main import ( "fmt" "time" ) func main() { go func() { time.Sleep(1 * time.Hour) // 等待1个小时后执行任务 fmt.Println("执行任务") }() select {} // 阻塞主函数,避免程序退出 } ``` 2. 使用计划任务管理工具:如果你需要在特定的日期和时间执行任务,可以使用计划任务管理工具(如crontab)来设置任务的执行时间。在任务执行完后,可以删除或禁用该任务,这样就可以确保任务只会执行一次。 这些方法都可以实现golang的cron只执行一次。根据你的需求选择合适的方法来解决问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值