0. 通过selenium chrome爬取数据大多网站会失败,直接通过chromedriver会被识别;目前可通过先手动打开网站登录,再托管运行js代码***托管后刷新页面会被识别
1. 启动chrome浏览器 google-chrome --remote-debugging-port=19222 --user-data-dir="/home/ubuntu/jg" --no-sandbox
# --remote-debugging-address=0.0.0.0 在headless模式下可用
2. 调试 (python)
chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:19222") # 前面设置的端口号
browser = webdriver.Chrome(executable_path=r'D:\driver\chromedriver.exe', options=chrome_options) # executable执行webdriver驱动的文件
3. 本地调试成功,远程调试失败。测试通过nginx反向代理可实现远程托管。
server {
listen 9222;
server_name chromeserver;
location / {