python网络爬虫（三）-CSDN博客

本文链接：https://blog.csdn.net/L__zio/article/details/105745869

python爬虫——selenium

selenium的介绍

selenium是一个Web的自动化测试工具，最初是为网址自动化测试开发的，selenium可以直接运行在浏览器上，它支持所有主流的浏览器（包括phantomJS这些无界面的浏览器），可以接受指令，让浏览器自动加载页面，获取需要的数据，甚至页面截图。
phantomJS是一个基于Webkit的“无界面”（headless)浏览器，它会把网站加载到内存并执行页面上的JavaScript

selenium的安装

可以直接在cmd下用pip命令进行安装。

pip install selenium

如果安装出现错误可以在cmd下用pip命令进行安装

pip install selenium -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

selenium的使用

Chrome的版本是77.0.3865.90，在这里安装的chromedriver.exe的版本是77.0.3865.40，它也是可以使用的。

webdriver 提供了一系列的对象定位方法，常用的有以下几种：

id定位：find_element_by_id()
name定位：find_element_by_name()
class定位：find_element_by_class_name()
link定位：find_element_by_link_text()
partial link定位：find_element_by_partial_link_tex
tag定位：find_element_by_tag_name()
xpath定位：find_element_by_xpath()
css定位：find_element_by_css_selector()

用百度搜索selenium

# -*- coding: utf-8 -*-
from selenium import webdriver
import time
#浏览器
browser = webdriver.Chrome(r'D:\***\chromedriver.exe')
#发送请求
browser.get('http://www.baidu.com/')
#进行页面截屏
browser.save_screenshot("./baidu.jpg")
#元素定位
browser.find_element_by_id("kw").send_keys("selenium")
browser.find_element_by_id("su").click()
time.sleep(3) #3秒后退出程序
browser.quit()

cookies和session

cookies

Cookie是由服务器端生成，发送给User-Agent（一般是浏览器），（服务器告诉浏览器设置一下cookie），浏览器自动会将Cookie以key/value保存到某个目录下的文本文件内，下次请求同一网站时也会自动发送该Cookie给服务器，即添加在请求头部（前提是浏览器设置为启用cookie）。
Cookie就是一个小型文件（浏览器对cookie的内存大小是有限制的-------用来记录一些信息）

session

Session 是会话的意思，会话是产生在服务端的，用来保存当前用户的会话信息，而 Cookies 是保存在客户端（浏览器），有了 Cookie 以后，客户端（浏览器）再次访问服务端的时候，会将这个 Cookie 带上，这时，服务端可以通过 Cookie 来识别本次请求到底是谁在访问。
可以简单理解为 Cookies 中保存了登录凭证，我们只要持有这个凭证，就可以在服务端保持一个登录状态。

Session 和 Cookies 之间是需要相互配合的，一个在服务端，一个在客户端。

IP代理爬取

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import bs4
import re
import json
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0'
}
proxy = {
     "http": "124.88.67.81:80"
}
def open_proxy_url(url):
    try:
        r = requests.get(url, headers = headers, proxies = proxy,timeout = 10)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        print('无法访问网页' + url)


def get_proxy_ip(response):
    proxy_ip_list = []
    soup = BeautifulSoup(response, 'html.parser')
    proxy_ips = soup.find(id = 'ip_list').find_all('tr')
    for proxy_ip in proxy_ips:
        if len(proxy_ip.select('td')) >=8:
            ip = proxy_ip.select('td')[1].text
            port = proxy_ip.select('td')[2].text
            protocol = proxy_ip.select('td')[5].text
            if protocol in ('HTTP','HTTPS','http','https'):
                proxy_ip_list.append(f'{protocol}://{ip}:{port}')
    return proxy_ip_list


def open_url_using_proxy(url, proxy):
    proxies = {}
    if proxy.startswith(('HTTPS','https')):
        proxies['https'] = proxy
    else:
        proxies['http'] = proxy

    try:
        r = requests.get(url, headers = headers, proxies = proxies, timeout = 10)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return (r.text, r.status_code)
    except:
        print('无法访问网页' + url)
        print('无效代理IP: ' + proxy)
        return False


def check_proxy_avaliability(proxy):
    url = 'http://www.baidu.com'
    result = open_url_using_proxy(url, proxy)
    VALID_PROXY = False
    if result:
        text, status_code = result
        if status_code == 200:
            r_title = re.findall('<title>.*</title>', text)
            if r_title:
                if r_title[0] == '<title>百度一下，你就知道</title>':
                    VALID_PROXY = True
        if VALID_PROXY:
            check_ip_url = 'https://jsonip.com/'
            try:
                text, status_code = open_url_using_proxy(check_ip_url, proxy)
            except:
                return

            print('有效代理IP: ' + proxy)
            with open('valid_proxy_ip.txt','a') as f:
                f.writelines(proxy)
            try:
                source_ip = json.loads(text).get('ip')
                print(f'源IP地址为：{source_ip}')
                print('='*40)
            except:
                print('返回的非json,无法解析')
                print(text)
    else:
        print('无效代理IP: ' + proxy)


if __name__ == '__main__':
    proxy_url = 'https://www.xicidaili.com/'
    proxy_ip_filename = 'proxy_ip.txt'
    text = open(proxy_ip_filename, 'r').read()
    proxy_ip_list = get_proxy_ip(text)
    for proxy in proxy_ip_list:
        check_proxy_avaliability(proxy)

结果：
在这里插入图片描述

模拟登录丁香园，并抓取论坛页面所有的人员基本信息与回复帖子内容。

# -*- coding: utf-8 -*-
from selenium import webdriver
import time
from lxml import etree
#浏览器
browser = webdriver.Chrome(r'D:\***\chromedriver.exe')
#发送请求
browser.maximize_window()
#模拟登陆
def login(url):
    browser.get(url)
    browser.find_element_by_class_name("login__tab_wp").click()
    browser.find_element_by_id("username").send_keys("账号")
    browser.find_element_by_class_name("input__btb1").send_keys("123")
    browser.find_element_by_class_name("button").click()
    #获取cookies
    cookies = {i["name"]:i["value"]for i in browser.get_cookies()}
    print (cookies)
    time.sleep(10)

#抓取论坛页面所有的人员基本信息与回复帖子内容
def getDATABase():
    browser.get("http://www.dxy.cn/bbs/thread/626626#626626")
    html = browser.page_source
    tree = etree.HTML(html)
    user = tree.xpath('//div[@id="postcontainer"]//div[@class="auth"]/a/text()')
    content = tree.xpath('//td[@class="postbody"]')
    for i in range(0, len(user)):
        result = user[i].strip() + ":" + content[i].xpath('string(.)').strip()
        # 写入文件
        dir_file = open(".\ records.txt", 'a', encoding="utf-8")
        dir_file.write(result + "\n")
        dir_file.write('*' * 80 + "\n")
        dir_file.close()
    print('*' * 5 + "抓取结束" + '*' * 5)
   
if __name__ == "__main__":
    url = 'https://auth.dxy.cn/accounts/login?service=http%3A%2F%2Fwww.dxy.cn%2Fuser%2Findex.do%3Fdone%3Dhttp%3A%2F%2Fwww.dxy.cn%2F'
    login(url)
    getDATABase()
    browser.quit()

在这里插入图片描述