打造网站克隆、仿站工具、含源码(.NET CORE + selenium + chromedriver)

打造网站克隆、仿站工具、含源码

本次的网址克隆工具、仿站工具是用.net core 写的,是控制台程序,适合懂编程的人用(selenium+chromedriver)。该程序模拟了chrome浏览器,能成功抓取页面代码,包括浏览器解析部分的代码,抓取的效果好,比使用一般的抓取页面源码方法要好。

代码部分

(UrlHandler.cs)

using System;
using System.Collections.Generic;
using System.IO;
using System.Linq;
using System.Net;
using System.Text;
using System.Text.RegularExpressions;
using System.Threading;
using ConsoleApp2.Models;

namespace ConsoleApp2.Handlers
{
   
    public class UrlHandler
    {
   
        public List<UrlItem> UrlItemList = new List<UrlItem>();
        public List<UrlItem> UrlItemListCSS = new List<UrlItem>();

        public string PageSource {
    get; set; }
        public UrlHandler(string pageSource)
        {
   
            this.PageSource = pageSource;
            this.UrlItemList = new List<UrlItem>();
        }

        private void ExtractUrl(string pageSource)
        {
   
            string pattern = "href=\"(?<Url>.+?)\"|src=\"(?<Url>.+?)\"|url\\(\"*(?<Url>.+?)\"*\\)";
            Regex reg = new Regex(pattern, RegexOptions.IgnoreCase | RegexOptions.Singleline);

            Console.WriteLine("======================ExtractUrl BEGIN======================");

            if (reg.IsMatch(pageSource))
            {
   
                foreach (Match mm in reg.Matches(pageSource))
                {
   
                    var url = mm.Groups["Url"].Value;
                    var item = new UrlItem
                    {
   
                        Type = GetUrlType(url),
                        Url = url.Trim(),
                        IsLocal = true
                    };
                    
                    UrlItemList.Add(item);

                    Console.WriteLine("[URL]:{0}", url);
                }
            }

            Console.WriteLine("======================ExtractUrl END======================");
        }

        /// <summary>
        /// 获取样式内部的资源
        /// </summary>
        /// <param name="pageSource"></param>
        /// <returns></returns>
        private List<UrlItem> GetCSSUrl(string pageSource)
        {
   
            string pattern = "href=\"(?<Url>.+?)\"|src=\"(?<Url>.+?)\"|url\\(\"*(?<Url>.+?)\"*\\)";
            Regex reg = new Regex(pattern, RegexOptions.IgnoreCase | RegexOptions.Singleline);
            var list = new List<UrlItem>();

            Console.WriteLine("======================GetCSSUrl BEGIN======================");

            if (reg.IsMatch(pageSource))
            {
   
                foreach (Match mm in reg.Matches(pageSource))
                {
   
                    var url = mm.Groups["Url"].Value;
                    var item = new UrlItem
                    {
   
                        Type = GetUrlType(url),
                        Url = url.Trim(),
                        IsLocal = true
                    };

                    list.Add(item);

                    Console.WriteLine("[URL]:{0}",url);
                }
            }

            Console.WriteLine("======================GetCSSUrl END======================");

            return list;
        }

        /// <summary>
        /// 获取资源的类型
        /// </summary>
        /// <param name="url"></param>
        /// <returns></returns>
        private UrlType GetUrlType(string url)
        {
   
            var type = UrlType.Other;
            var extend = Path.GetExtension(url);
            if (string.IsNullOrWhiteSpace
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

显亮

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值