python爬虫——selenium
selenium的介绍
selenium是一个Web的自动化测试工具,最初是为网址自动化测试开发的,selenium可以直接运行在浏览器上,它支持所有主流的浏览器(包括phantomJS这些无界面的浏览器),可以接受指令,让浏览器自动加载页面,获取需要的数据,甚至页面截图。
phantomJS是一个基于Webkit的“无界面”(headless)浏览器,它会把网站加载到内存并执行页面上的JavaScript
selenium的安装
可以直接在cmd下用pip命令进行安装。
pip install selenium
如果安装出现错误可以在cmd下用pip命令进行安装
pip install selenium -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
selenium的使用
Chrome的版本是77.0.3865.90,在这里安装的chromedriver.exe的版本是77.0.3865.40,它也是可以使用的。
webdriver 提供了一系列的对象定位方法,常用的有以下几种:
- id定位:find_element_by_id()
- name定位:find_element_by_name()
- class定位:find_element_by_class_name()
- link定位:find_element_by_link_text()
- partial link定位:find_element_by_partial_link_tex
- tag定位:find_element_by_tag_name()
- xpath定位:find_element_by_xpath()
- css定位:find_element_by_css_selector()
用百度搜索selenium
# -*- coding: utf-8 -*-
from selenium import webdriver
import time
#浏览器
browser = webdriver.Chrome(r'D:\***\chromedriver.exe')
#发送请求
browser.get('http://www.baidu.com/')
#进行页面截屏
browser.save_screenshot("./baidu.jpg")
#元素定位
browser.find_element_by_id("kw").send_keys("selenium")
browser.find_element_by_id("su").click()
time.sleep(3) #3秒后退出程序
browser.quit()
cookies和session
cookies
Cookie是由服务器端生成,发送给User-Agent(一般是浏览器),(服务器告诉浏览器设置一下cookie),浏览器自动会将Cookie以key/value保存到某个目录下的文本文件内,下次请求同一网站时也会自动发送该Cookie给服务器,即添加在请求头部(前提是浏览器设置为启用cookie)。
Cookie就是一个小型文件(浏览器对cookie的内存大小是有限制的-------用来记录一些信息)
session
Session 是会话的意思,会话是产生在服务端的,用来保存当前用户的会话信息,而 Cookies 是保存在客户端(浏览器),有了 Cookie 以后,客户端(浏览器)再次访问服务端的时候,会将这个 Cookie 带上,这时,服务端可以通过 Cookie 来识别本次请求到底是谁在访问。
可以简单理解为 Cookies 中保存了登录凭证,我们只要持有这个凭证,就可以在服务端保持一个登录状态。
Session 和 Cookies 之间是需要相互配合的,一个在服务端,一个在客户端。
IP代理爬取
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import bs4
import re
import json
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0'
}
proxy = {
"http": "124.88.67.81:80"
}
def open_proxy_url(url):
try:
r = requests.get(url, headers = headers, proxies = proxy,timeout = 10)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
print('无法访问网页' + url)
def get_proxy_ip(response):
proxy_ip_list = []
soup = BeautifulSoup(response, 'html.parser')
proxy_ips = soup.find(id = 'ip_list').find_all('tr')
for proxy_ip in proxy_ips:
if len(proxy_ip.select('td')) >=8:
ip = proxy_ip.select('td')[1].text
port = proxy_ip.select('td')[2].text
protocol = proxy_ip.select('td')[5].text
if protocol in ('HTTP','HTTPS','http','https'):
proxy_ip_list.append(f'{protocol}://{ip}:{port}')
return proxy_ip_list
def open_url_using_proxy(url, proxy):
proxies = {}
if proxy.startswith(('HTTPS','https')):
proxies['https'] = proxy
else:
proxies['http'] = proxy
try:
r = requests.get(url, headers = headers, proxies = proxies, timeout = 10)
r.raise_for_status()
r.encoding = r.apparent_encoding
return (r.text, r.status_code)
except:
print('无法访问网页' + url)
print('无效代理IP: ' + proxy)
return False
def check_proxy_avaliability(proxy):
url = 'http://www.baidu.com'
result = open_url_using_proxy(url, proxy)
VALID_PROXY = False
if result:
text, status_code = result
if status_code == 200:
r_title = re.findall('<title>.*</title>', text)
if r_title:
if r_title[0] == '<title>百度一下,你就知道</title>':
VALID_PROXY = True
if VALID_PROXY:
check_ip_url = 'https://jsonip.com/'
try:
text, status_code = open_url_using_proxy(check_ip_url, proxy)
except:
return
print('有效代理IP: ' + proxy)
with open('valid_proxy_ip.txt','a') as f:
f.writelines(proxy)
try:
source_ip = json.loads(text).get('ip')
print(f'源IP地址为:{source_ip}')
print('='*40)
except:
print('返回的非json,无法解析')
print(text)
else:
print('无效代理IP: ' + proxy)
if __name__ == '__main__':
proxy_url = 'https://www.xicidaili.com/'
proxy_ip_filename = 'proxy_ip.txt'
text = open(proxy_ip_filename, 'r').read()
proxy_ip_list = get_proxy_ip(text)
for proxy in proxy_ip_list:
check_proxy_avaliability(proxy)
结果:
模拟登录丁香园,并抓取论坛页面所有的人员基本信息与回复帖子内容。
# -*- coding: utf-8 -*-
from selenium import webdriver
import time
from lxml import etree
#浏览器
browser = webdriver.Chrome(r'D:\***\chromedriver.exe')
#发送请求
browser.maximize_window()
#模拟登陆
def login(url):
browser.get(url)
browser.find_element_by_class_name("login__tab_wp").click()
browser.find_element_by_id("username").send_keys("账号")
browser.find_element_by_class_name("input__btb1").send_keys("123")
browser.find_element_by_class_name("button").click()
#获取cookies
cookies = {i["name"]:i["value"]for i in browser.get_cookies()}
print (cookies)
time.sleep(10)
#抓取论坛页面所有的人员基本信息与回复帖子内容
def getDATABase():
browser.get("http://www.dxy.cn/bbs/thread/626626#626626")
html = browser.page_source
tree = etree.HTML(html)
user = tree.xpath('//div[@id="postcontainer"]//div[@class="auth"]/a/text()')
content = tree.xpath('//td[@class="postbody"]')
for i in range(0, len(user)):
result = user[i].strip() + ":" + content[i].xpath('string(.)').strip()
# 写入文件
dir_file = open(".\ records.txt", 'a', encoding="utf-8")
dir_file.write(result + "\n")
dir_file.write('*' * 80 + "\n")
dir_file.close()
print('*' * 5 + "抓取结束" + '*' * 5)
if __name__ == "__main__":
url = 'https://auth.dxy.cn/accounts/login?service=http%3A%2F%2Fwww.dxy.cn%2Fuser%2Findex.do%3Fdone%3Dhttp%3A%2F%2Fwww.dxy.cn%2F'
login(url)
getDATABase()
browser.quit()