Task3 Session Cookie ip代理 selenium

最新推荐文章于 2023-07-23 16:16:42 发布

小胖胖7

最新推荐文章于 2023-07-23 16:16:42 发布

阅读量279

点赞数

分类专栏：数据挖掘文章标签： selenium python web

本文链接：https://blog.csdn.net/weixin_43057279/article/details/105743485

版权

数据挖掘专栏收录该内容

19 篇文章 0 订阅

订阅专栏

Task 3

session和cookie的区别

1，session 在服务器端，cookie 在客户端（浏览器）
2，session 默认被存在在服务器的一个文件里（不是内存）
3，session 的运行依赖 session id，而 session id 是存在 cookie 中的，也就是说，如果浏览器禁用了 cookie ，同时 session 也会失效（但是可以通过其它方式实现，比如在 url 中传递 session_id）
4，session 可以放在文件、数据库、或内存中都可以。
5，用户验证这种场合一般会用 session

Selenium 爬虫入门

Selenium 的初衷是打造一款优秀的自动化测试工具，但是慢慢的人们就发现，Selenium 的自动化用来做爬虫正合适。传统的爬虫通过直接模拟 HTTP 请求来爬取站点信息，由于这种方式和浏览器访问差异比较明显，很多站点都采取了一些反爬的手段，而 Selenium 是通过模拟浏览器来爬取信息，其行为和用户几乎一样，反爬策略也很难区分出请求到底是来自 Selenium 还是真实用户。而且通过 Selenium 来做爬虫，不用去分析每个请求的具体参数，比起传统的爬虫开发起来更容易。Selenium 爬虫唯一的不足是慢，如果你对爬虫的速度没有要求，那使用 Selenium 是个非常不错的选择。

hello world

要使用 Chrome 浏览器，必须得有 chromedriver，而且 chromedriver 文件位置必须得配置到 PATH 环境变量中。chromedriver 文件可以通过错误提示中的地址下载。

输入和输出

输入指的是用户对浏览器的所有操作，譬如上面的直接访问某个页面也是一种输入，或者在输入框填写，下拉列表选择，点击某个按钮等等；
输出指的是根据输入操作，对浏览器所产生的数据进行解析，得到我们需要的数据；这里浏览器所产生的数据不仅包括可见的内容，如页面上显示的信息，也还包括不可见的内容，如 HTML 源码，甚至浏览器所发生的所有 HTTP 请求报文。

输入

方式一 send keys with return

from selenium.webdriver.common.keys import Keys

kw = browser.find_element_by_id("kw")
kw.send_keys("Selenium", Keys.RETURN)
其中 find_element_by_id 方法经常用到，它根据元素的 ID 来查找页面某个元素。类似的方法还有 find_element_by_name、find_element_by_class_name、find_element_by_css_selector、find_element_by_xpath 等，都是用于定位页面元素的。另外，也可以同时定位多个元素，例如 find_elements_by_name、find_elements_by_class_name 等，就是把 find_element 换成 find_elements

方式二 send keys then click submit button

kw = browser.find_element_by_id("kw")
su = browser.find_element_by_id("su")
kw.send_keys("Selenium")
su.click()

如果这个元素是在一个表单（form）中，还可以通过 submit 方法来模拟提交表单。

方式三 send keys then submit form

kw = browser.find_element_by_id("kw")
kw.send_keys("Selenium")
kw.submit()

方式四 execute javascript

browser.execute_script(
    '''
    var kw = document.getElementById('kw');
    var su = document.getElementById('su');
    kw.value = 'Selenium';
    su.click();
    '''
)

输出

方式一 parse page_source

html = browser.page_source
results = parse_html(html)

方式二 find & parse elements

results = browser.find_elements_by_css_selector("#content_left .c-container")
for result in results:
    link = result.find_element_by_xpath(".//h3/a")
    print(link.text)

方式三 intercept & parse ajax

使用代理服务器

通过命令行参数指定代理

使用 Selenium 启动浏览器时，也可以指定浏览器的启动参数。像下面这样即可：

chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--proxy-server=127.0.0.1:8118')
 
browser = webdriver.Chrome(
    executable_path="./drivers/chromedriver.exe",
    chrome_options=chrome_options
)
browser.get('http://ip138.com')