🏆作者:科技、互联网行业优质创作者
🏆专注领域:.Net技术、软件架构、人工智能、数字化转型、DeveloperSharp、微服务、工业互联网、智能制造
🏆欢迎关注我(Net数字智慧化基地),里面有很多高价值技术文章,是你刻苦努力也积累不到的经验,能助你快速成长。升职+涨薪!!
RuiJi.Net
RuiJi.Net 是一个可以分布式部署的爬虫框架,使用 C# 开发,项目的最终目的是可以对大量的网站进行自动更新检查及抓取。
RuiJi.Net 支持自管理Cookie,并且自动维护不同浏览器标识的Cookie,这意味着您可以在使用独立IP的基础上,虚拟出任意多的Cookie. RuiJi.Net 同样支持使用抓取服务器上的IP进行轮询抓取,并且也可以使用代理服务器。
RuiJi.Net具有自己的抽取模型,称为RuiJi Expression(RuiJi表达式),您可以使用RuiJi表达式定义抽取模型,并对需要提取的元数据进行精确清洗。
RuiJi 表达式可以存储为文本文档、数据库及高速缓存中。
如何使用
使用本地 IP
var crawler = new RuiJiCrawler();
var request = new Request("https://www.baidu.