Python实战 | 使用代理IP刷CSDN博客访问量

声明:仅供学习交流,请勿用于不正当用途

前置技能:Python爬虫 | 代理IP的获取和使用

通过之前的学习,我们成功获取代理IP,有了代理IP,加上伪装用户UA,referer(告诉网站你是通过什么渠道进入这里的),我们可以完全制造一个虚拟的访客,来帮助我们达到一些目的,比如刷访问量

首先是代理IP的获取,直接从之前的博客搬过来:

from bs4 import BeautifulSoup
import requests
import random
import concurrent.futures,os
headers = {'Upgrade-Insecure-Requests':'1',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Encoding':'gzip, deflate, sdch, br',
    'Accept-Language':'zh-CN,zh;q=0.8',
    'Connection':'close',
    }

ip_url = 'http://httpbin.org/ip'

def get_ip_list(url):
    page = requests.get(url,headers=headers)
    soup = BeautifulSoup(page.text,'lxml')
    # print(soup)
    ips = soup.find_all('tr')
    ip_list = []
    for i in range(1,len(ips)):
        ip_info = ips[i]
        td = ip_info.find_all('td')
        ip_list.append(td[1].text + ':'+ td[2].text)
    ip_set = set(ip_list)
    ip_list = list(ip_set)      #去重
    print(ip_list)
    #true_ip = []
    with concurrent.futures.ThreadPoolExecutor(len(ip_list)) as x:
        for ip in ip_list:
            x.submit(ip_test,ip)

def ip_test(ip):
    proxies = {
        'http': 'http://' + ip,
        'https': 'https://' + ip,
    }
    print(proxies)
    try:
        response = requests.get(ip_url,headers=headers,proxies=proxies,timeout=3)
        if response.status_code == 200:
            with open('可用IP.txt','a') as f:
                f.write(ip)
                f.write('\n')
            print('测试通过')
            print(proxies)
            print(response.text)
    except Exception as e:
        print(e)

def get_random_ip(ip_list):
    proxy_list = []
    for ip in ip_list:
        proxy_list.append(ip)
    proxy_ip = random.choice(proxy_list)
    proxies = {'http': 'http://' + proxy_ip, 'https': 'https://' + proxy_ip}
    return proxies

if __name__ == '__main__':
    url = 'https://www.xicidaili.com/wt'
    if os.path.exists('可用IP.txt'):
        os.remove('可用IP.txt')
    get_ip_list(url)
    get_ip_list(url+'/2')

获取到的代理IP储存在 可用IP.txt 文件里,刷访问量的主程序我们另外新建一个py文件

首先是头文件和多个可供使用的伪装UA,referer,以及目标网站:

import requests
import random
import time

user_agent_list=[
            'Mozilla/5.0(compatible;MSIE9.0;WindowsNT6.1;Trident/5.0)',
            'Mozilla/4.0(compatible;MSIE8.0;WindowsNT6.0;Trident/4.0)',
            'Mozilla/4.0(compatible;MSIE7.0;WindowsNT6.0)',
            'Opera/9.80(WindowsNT6.1;U;en)Presto/2.8.131Version/11.11',
            'Mozilla/5.0(WindowsNT6.1;rv:2.0.1)Gecko/20100101Firefox/4.0.1',
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER',
            'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)',
            'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 SE 2.X MetaSr 1.0',
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Maxthon/4.4.3.4000 Chrome/30.0.1599.101 Safari/537.36',
            'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 UBrowser/4.0.3214.0 Safari/537.36'
        ]
referer_list=[
            'https://blog.csdn.net/Xylon_/article/details/100053138',
            'http://blog.csdn.net/',
            #'https://www.baidu.com/link?url=TVS47tYso1NWxFTD8ieQOOe5q3HpJEdFDAXcGZb_F6ooFilKVeXTt7zTUJgZ0jSr&wd=&eqid=b5f9b4bd00121a9e000000035d60fa47'
        ]

url = 'https://blog.csdn.net/Xylon_/article/details/100053138'

接下来是主程序

读取文件:

if __name__ == '__main__':
    ip_list = []
    with open('可用IP.txt','r') as f:
        while True:
            line = f.readline()
            if not line:
                break
            line = line.strip('\n')
            ip_list.append(line)
    print(ip_list)

然后使用所有的代理IP进行模拟访问:

拼接proxies代理IP地址,然后headers随机获取UA和referer,请求页面,一次虚拟的"访问"就完成了

    for ip in ip_list:
        proxies = {
            'http': 'http://' + ip,
            'https': 'https://' + ip,
        }
        headers = {
            'User-Agent':random.choice(user_agent_list),
            'Referer':random.choice(referer_list)
        }
        try:
            page = requests.get(url, headers=headers, proxies=proxies,timeout=3)
            if page.status_code == 200:
                print('可取 '+ str(proxies))
                time.sleep(random.randint(5,30))
        except Exception as e:
            print(e)

访问页面是我的上一篇博客:https://blog.csdn.net/Xylon_/article/details/100053138

测试过程中发现CSDN做了反作弊处理,同一时间频繁访问将会被视为非正常行为,因此间隔时间随机取值(30s左右较好)

测试对比

刷之前:

刷之后:

大约十次有效访问,成功率一半一半,如果延长时间或采取其他应对措施可能会更好

各位网友大家好,要运行此工具必需先设置好网页信息,点击菜单栏设置或用快捷键(Alt+E)进入到设置页面,设置页面其中包括三个Tab:基本配置、网页信息和数据库。基本配置:如果要运行页面点击时自动新外网IP就要配置ADSL帐号,现在暂时只支持ADSL新外网IP。单独页面执行是已Html中div的id为标志,意思是循环只执行此选中项,默认是所有项目。IP数据表就是每执行一下点击网页都会记录下本次的IP,记录文件放在此工具的路径下的Data目录下的iptables.log文件,最小化启动程序就是启动此工具或最小化窗口后台托管运行,就像QQ一样挂着。循环重启软件运行此项是为了和新ADSL一起配合产生独立IP,因为每个浏览器都有Cookies,关闭浏览器就可以彻底清除Cookies产生独立访客(UV)了。如果同时选择了最小化启动程序可以用全局快捷键Ctrl+Alt+空格解除循环。网页信息:是一个表格可以进行添加、修改和删除。页面执行方式有两种:一是completed意思是等网页加载完毕后执行点击,二是thread多线程执行意思是加载页面3秒钟后再执行页面点击。各有各自的优点,如果发现其中一种执行方式实现不了可以用另外一种试一下。类型就是网页的链接返回类型,有两种一时纯url链接如:http://www.baidu.com,另一种是数据库SQL语句返回链接集。用数据库名加@加地址标志,在数据库Tab中配置。SQL语句一定要返回link结果集如:select concat('http://www.google.com/', url) link from table,在SQL语句中不要用双引号,要用单引号,否则会出错。现在支持MYSQL和MSSQL数据库。链接就是类型对应的文本。htmlID是html中div的id,这个是网站网页中要点击的定位点,是这个表的主键必须唯一。偏移坐标就是htmlID的相对偏移点,用英文逗号隔开如0,0。状态有两种Y和N,意思是是和否,默认是Y,就是如果您想停用此条记录不加入循环就改为N。独立IP,默认是N,就是在Data/iptables.log文件中没出现过的当为独立ip。双击单元格可以修改文本内容。点击最后的删除可以删除此行记录。修改或添加后可别忘记了按右下角的保存按钮哦。数据库tab表格简单明了就不多加说明了。如果有出现运行异常可以可以查看Data下的error.log错误日志文件。如果对此工具有何意见或建议可以点击意见反馈发送你的宝贵信息。此工具支持在线更新。如收到您的来信,我会尽快的修改更新。温馨提示:目标执行标签(htmlID)要保持在预览窗口显示,建议最大化窗口最小化后台托管运行。希望此工具可以帮得了大家。
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值