Python实战社群
Java实战社群
长按识别下方二维码,按需求添加
扫码关注添加客服
进Python社群▲
扫码关注添加客服
进Java社群▲
开源最前线(ID:OpenSourceTop) 猿妹整编
地址:https://github.com/xiandanin/magnetW
大数据时代下,网路爬虫已经成为许多程序员都需要用到的重要手段。很多人都是从爬一些最基本的网站开始,比如把一个网站的文章爬下来,诸如文章的作者、文章内容等信息。
有一些网络资源搜索工具利用的也是这个原理,今天和大家推荐一个项目,既可以帮助你学习、借鉴爬虫技术,又能看电影的神器——magnetW。
magnetW基于magnetX的规则原理,将各个磁力站的搜索结果统一格式化,支持Windows和MacOS。它已经开源挺长时间了,在Github上标星9K。(Github地址:https://github.com/xiandanin/magnetW/)
magnetW对源站的规则采集有自动采集和手动采集两种方式,自动采集需要使用Tampermonkey脚本,目前已经包含大部分字段,部分字段(如:name、icon、proxy等)还需根据实际情况手动调整。当自动采集的结果无法使用的时候,还需要手动采集。
猿妹看了一下,magnetW大概收集了25个磁力源,不过有许多老牌站点和优质站点都需要代理才能够访问,一般来说这些站都比较稳定,所以在源站列表中,创建者对这个站点进行表示。
Windows中将代理软件设置全局代理很简单,进入控制面板选择Internet选项,点击连接,选中局域网设置,然后按照下图设置:
选择代理类型,将系统设置中的地址和端口填入应用设置中,勾选启用代理,点击测试连接检查代理是否生效,保存设置后生效。大部分情况下,HTTP默认端口是1087,SOCKS5默认端口是1080
此外,magnetW很多功能都支持自定义,诸如窗口大小、端口映射、代理、内容过滤、UserAgent 等功能,总的来说,magnetW完善的还是不错的。
猿妹试了一下搜索【泰坦尼克号】确实可以搜到,如果碰到搜索不到的情况下,可以换一下接口试试。
程序员专栏 扫码关注填加客服 长按识别下方二维码进群
近期精彩内容推荐:
在看点这里好文分享给更多人↓↓