这款开源神器,让你看片+爬虫学习两不误!

Python实战社群

Java实战社群

长按识别下方二维码,按需求添加

扫码关注添加客服

进Python社群▲

扫码关注添加客服

进Java社群

开源最前线(ID:OpenSourceTop) 猿妹整编

地址:https://github.com/xiandanin/magnetW

大数据时代下,网路爬虫已经成为许多程序员都需要用到的重要手段。很多人都是从爬一些最基本的网站开始,比如把一个网站的文章爬下来,诸如文章的作者、文章内容等信息。

有一些网络资源搜索工具利用的也是这个原理,今天和大家推荐一个项目,既可以帮助你学习、借鉴爬虫技术,又能看电影的神器——magnetW

magnetW基于magnetX的规则原理,将各个磁力站的搜索结果统一格式化,支持Windows和MacOS。它已经开源挺长时间了,在Github上标星9K。(Github地址:https://github.com/xiandanin/magnetW/)

magnetW对源站的规则采集有自动采集和手动采集两种方式,自动采集需要使用Tampermonkey脚本,目前已经包含大部分字段,部分字段(如:name、icon、proxy等)还需根据实际情况手动调整。当自动采集的结果无法使用的时候,还需要手动采集。

猿妹看了一下,magnetW大概收集了25个磁力源,不过有许多老牌站点和优质站点都需要代理才能够访问,一般来说这些站都比较稳定,所以在源站列表中,创建者对这个站点进行表示。

Windows中将代理软件设置全局代理很简单,进入控制面板选择Internet选项,点击连接,选中局域网设置,然后按照下图设置:

选择代理类型,将系统设置中的地址和端口填入应用设置中,勾选启用代理,点击测试连接检查代理是否生效,保存设置后生效。大部分情况下,HTTP默认端口是1087,SOCKS5默认端口是1080

此外,magnetW很多功能都支持自定义,诸如窗口大小、端口映射、代理、内容过滤、UserAgent 等功能,总的来说,magnetW完善的还是不错的。

猿妹试了一下搜索【泰坦尼克号】确实可以搜到,如果碰到搜索不到的情况下,可以换一下接口试试。

程序员专栏 扫码关注填加客服 长按识别下方二维码进群

近期精彩内容推荐:  

 写外挂赚12万获刑,被抓才知道帮团队赚300万

 程序员高薪盛宴背后:程序员正在消失?

 教你构建 Python 编程的核心知识体系!

 分享史上Java最牛逼,最简短的代码

在看点这里好文分享给更多人↓↓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值