打造网站克隆、仿站工具、含源码(.NET CORE + selenium + chromedriver)

这是一个用.NET CORE编写的控制台程序,结合selenium和chromedriver,能够有效地克隆和仿站,模拟Chrome浏览器抓取页面包括解析后的代码,效果优于普通抓取源码的方法。代码简洁,适用于有编程基础的用户。如有需要仿站服务,可联系作者。
摘要由CSDN通过智能技术生成

打造网站克隆、仿站工具、含源码

本次的网址克隆工具、仿站工具是用.net core 写的,是控制台程序,适合懂编程的人用(selenium+chromedriver)。该程序模拟了chrome浏览器,能成功抓取页面代码,包括浏览器解析部分的代码,抓取的效果好,比使用一般的抓取页面源码方法要好。

代码部分

(UrlHandler.cs)

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading;
using ConsoleApp2.Models;

namespace ConsoleApp2.Handlers
{
   
    public class UrlHandler
    {
   
        public List<UrlItem> UrlItemList = new List<UrlItem>();
        public List<UrlItem> UrlItemListCSS = new List<UrlItem>();

        public string PageSource {
    get; set; }
        public UrlHandler(string pageSource)
        {
   
            this.PageSource = pageSource;
            this.UrlItemList = new List<UrlItem>();
        }

        private void ExtractUrl(string pageSource)
        {
   
            string pattern = "href=\"(?<Url>.+?)\"|src=\"(?<Url>.+?)\"|url\\(\"*(?<Url>.+?)\"*\\)";
            Regex reg = new Regex(pattern, RegexOptions.IgnoreCase | RegexOptions.Singleline);

            Console.WriteLine("======================ExtractUrl BEGIN======================");

            if (reg.IsMatch(pageSource))
            {
   
                foreach (Match mm in reg.Matches(pageSource))
                {
   
                    var url = mm.Groups["Url"].Value;
                    var item = new UrlItem
                    {
   
                        Type = GetUrlType(url),
                        Url = url.Trim(),
                        IsLocal = true
                    };
                    
                    UrlItemList.Add(item);

                    Console.WriteLine("[URL]:{0}", url);
                }
            }

            Console.WriteLine("======================ExtractUrl END======================");
        }

        /// <summary>
        /// 获取样式内部的资源
        /// </summary>
        /// <param name="pageSource"></param>
        /// <returns></returns>
        private List<UrlItem> GetCSSUrl(string pageSource)
        {
   
            string pattern = "href=\"(?<Url>.+?)\"|src=\"(?<Url>.+?)\"|url\\(\"*(?<Url>.+?)\"*\\)";
            Regex reg = new Regex(pattern, RegexOptions.IgnoreCase | RegexOptions.Singleline);
            var list = new List<UrlItem>();

            Console.WriteLine("======================GetCSSUrl BEGIN======================");

            if (reg.IsMatch(pageSource))
            {
   
                foreach (Match mm in reg.Matches(pageSource))
                {
   
                    var url = mm.Groups["Url"].Value;
                    var item = new UrlItem
                    {
   
                        Type = GetUrlType(url),
                        Url = url.Trim(),
                        IsLocal = true
                    };

                    list.Add(item);

                    Console.WriteLine("[URL]:{0}",url);
                }
            }

            Console.WriteLine("======================GetCSSUrl END======================");

            return list;
        }

        /// <summary>
        /// 获取资源的类型
        /// </summary>
        /// <param name="url"></param>
        /// <returns></returns>
        private UrlType GetUrlType(string url)
        {
   
            var type = UrlType.Other;
            var extend = Path.GetExtension(url);
            if (string.
8PHP网站克隆系统是一款颠覆传统意义上的建站系统,采用PHP语言开发,可以全自动实时采集网站,目前支持90%网站一键完美克隆,手动仔细调整可以克隆100%的网站!8PHP独创的一键克隆网站,可以通过正则替换修改网站任意位置,做成您理想的样子,即使多人克隆同一个网站,都可以做到各不相同的效果。可以自动本地化远程图片,完美破解各种图片防盗链机制!利用8PHP网站克隆系统,可以快速搭建网站,全自动实时采集目标站内容,绝对是您的建站首选! 功能简介 8PHP网站克隆系统跟其他同类型产品相比,它功能更全面、支持的网站更广泛,具体有的特点如下: 1. 免安装、绿色方便 只需要输入目标网站地址,就可以克隆一个完全一样的网站!通过简单的数据替换,修改CSS布局,即可制作出一个独一无二的全自动网站! 2. 高性能全站缓存机制 本系统支持两种缓存机制,分别是文件缓存和内存缓存,开启缓存功能后,将会大幅度提升网站打开速度,并且会根据用户访问情况来自动更新过期缓存。只要缓存未过期,即使目标网站无法打开,您的网站仍然可以畅通无阻! 3. 伪原创 系统自带十几万条中英文同义词库,如果启用伪原创,将极大的提高数据的原创性,并且支持用户自己更改词汇设置,向搜索引擎亮剑! 4. 自定义关键词和描述 本系统可以智能识别出目标站的keywords和description标签,无需学习正则也可以直接填写设置; 5. 补全相对路径 这个功能不仅可以补全链接和图片地址的相对路径,还可以补全CSS和JS内容中调用的文件相对路径,非常强大; 6. 破解图片防盗链 图片防盗链的机制其实很简单,本系统目前实测可以破解100%的图片防盗链!漫画站,图片站都可以轻松完美克隆! 7. 支持不同域名的图片采集 比如一些大型的漫画网站,漫画图片都使用了独立的图片服务器存储,域名也跟目标站不一样,本系统也可以将所有图片采集过来,同样可突破图片盗链! 8. 可自由修改网页内容/广告 通过简单的替换规则、可以将目标站站内任意内容、样式、广告、替换成自己想要的内容(html代码替换);可以删除不需要的内容,这一切只需要看的懂最简单的html即可,如果您不会,没关系,我们的售后会给您提供远程服务,现场教学; 9. 支持正则表达式屏蔽、删除 系统内置转码机制,将繁琐的正则表达式,简单化,只需要一个开头一个结尾,即可轻松屏蔽或替换任何内容; 10. 支持网站使用多级域名/多级目录 系统内置了目录、域名规则,即使您使用的是多级域名/多级子目录也不会影响到系统的正常使用,也就是说您一个域名可以用8PHP网站克隆系统建无数个站。 11. 支持自定义模板风格 通过正则表达式,屏蔽目标站的风格模块,将目标站的CSS文件下载到本地,即可实现自己制作完全脱离目标站的独立风格模板(新手需要帮助可以联系我们); 12. 支持站群功能 通过本系统可以完全复制不限数量的站群,并且制作各种程序的伪原创词汇,达到百站相存,站站不一的效果; 13. 制作淘宝客等商务站点 支持采集复制淘宝客,拍拍客等盈利型站点,只需要在正则替换联盟PID即可; 14. 支持各种字符编码 本系统支持编码转换,只要正确填写目标网站的编码即可,完全不用担心乱码问题! 15. 支持多目录采集 如果目标站使用了多个目录,本站亦可自动将所有目录内的站点内容采集过来,形成一个站点; 16. 支持代理服务器采集 如果网站IP地址被目标站屏蔽了,您也可以使用代理服务器绕过它的限制,完全不用担心IP地址被屏蔽导致无法采集; 17. 支持POST数据发送 即使是目标站需要登录才能查看的VIP内容,也可以轻松采集; 18. 防盗链 采集到的图片和盗链远程文件的链接,本系统都可以开启防盗链防止被其他网站引用; 19. 固若金汤的安全防护 程序采用文件作数据储存,后台登陆账号密码必须修改文件才能实现生效,天然防SQL注入,对相关敏感文件还有严格的权限控制; 20. 其他一些可以通过正则替换实现的功能就不一一介绍了,正则是万能的,没有做不到只有想不到。另外还有更多功能正在征集开发中,敬请留意新版本。
单域名PHP镜像克隆程序是一个以php进行开发的镜像网站源码。 程序的安装: 1、上传目录中的文件到服务器(请确保支持伪静态) 2、后台管理 http://您的域名/admin/ 3、默认帐号:admin 密码:admin 程序功能介绍: 1、功能强大,使用简单,设置方便。 2、可模拟多种蜘蛛采集,防止IP被封。包括移动蜘蛛哦! 3、网站自适配功能,不管是PC站还是移动站还是自适应,随你选择。 4、高速的缓存模式,自定义缓存目录、后缀与时间,同一链接不同客户端还能自动分开缓存。 5、外加Gzip压缩,访问速度提升效果杆杆滴。 6、内外链转换功能,网址加不加密?有些域名不想转换?都你说了算。 7、强大的正则替换,替换过滤?伪原创?换广告?近义词?这些都不是事。 8、支持各种编码,妈妈再也不用担心网站乱码了。 9、JS、CSS、图片等都可以下载到本地修改。以本地文件优先。 10、内置蜘蛛屏蔽,不来流量的蜘蛛都是流氓蜘蛛。 11、程序高度精简,占用空间小,无需Mysql,网站移植方便。 12、更多功能请自行体会...... 单域名PHP镜像克隆程序v4.0 更新 1、优化后台在IE低版本下错位的情况。 2、优化后台某些环境不支持短函数造成的登录错误。 3、增加一键清除缓存,不必手工删除文件夹。 4、增加访问跳转,可为主站引流,不影响蜘蛛爬取。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

显亮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值