selenium
文章平均质量分 69
笔记本IT
一个正在疯狂练英语口语以及学嵌入式的准爱尔兰留学生,希望和你在英语和编程技术方面一起进步!
展开
-
2021/5/23爬虫第四次周复盘
文章目录一、selenium设置无界面模式(模板)二、selenium爬取数据三、推动拖动条到最底下(模板)四、翻页的灵活处理(模板)五、设置页面等待六、打开多窗口和切换页面(模板)七、execute_script()运用一、selenium设置无界面模式(模板)options=webdriver.ChromeOptions()options.add_argument('--headless')driver=webdriver.Chrome(options=options)二、selenium爬原创 2021-05-23 17:33:55 · 97 阅读 · 0 评论 -
2021/5/22爬虫第十五次课(自动获取12306订单)
直接上代码:经验总结:字典的操作老师的代码没有真正理解,就去码了,导致中途一度停止运行前,保证代码没有明显错误(没有红线等)特别注意有许多缩进的地方,(for try if)一开始码的时候,分析页面(具体步骤) 一定要明确预定车票的标准:根据车次,然后是否是二等或一等(二等优先级高)选择席别的标准:二等或一等(二等优先级高)selenium定位时 (属性 元素)显式等待那里EC的方法 (url 属性值 元素)在这里插入代码片方法(细节)总结:1.drive原创 2021-05-23 15:31:00 · 279 阅读 · 0 评论 -
2021/5/20爬虫第十四次课(selenium页面等待,打开多窗口)
文章目录一、页面等待二、打开多窗口和切换页面三、案例(获取12306购票订单)四、类知识点回顾五、补充小知识点一、页面等待现在的网页越来越多采用了 Ajax 技术,这样程序便不能确定何时某个元素完全加载出来了。如果实际页面等待时间过长导致某个dom元素还没出来,但是你的代码直接使用了这个WebElement,那么就会抛出NullPointer的异常。为了解决这个问题。所以 Selenium 提供了两种等待方式:一种是隐式等待、一种是显式等待为什么要等?1 selenium比较慢 网站打开了 元素没有原创 2021-05-20 22:15:29 · 322 阅读 · 1 评论 -
2021/5/18爬虫第十三次课(行为链、无界面模式、selenium爬取数据案例)
文章目录一、(鼠标)行为链二、selenium设置无界面模式(模板)三、selenium爬取数据四、案例4.1selenium获取猫眼电影top100电影信息4.2selenium爬取京东某商品数据一、(鼠标)行为链有时候在页面中的操作可能要有很多步,那么这时候可以使用鼠标行为链类ActionChains来完成。比如现在要将鼠标移动到某个元素上并执行点击事件actions = ActionChains(driver)actions.move_to_element(inputTag)actions.原创 2021-05-19 12:00:54 · 334 阅读 · 0 评论 -
模板第一次总结--思路
(1)问题:爬取7天的 天气情况 日期 天气状况温度 风力–> 保存到CSV分析需求 要干什么事情 通过什么技术来解决爬取7天的 天气情况 日期 天气状况温度 风力–> 保存到CSV具体步骤(分析页面)1.先明确目标url通过分析我们发现要爬取的数据都在 ul class=“t clearfix” 这个标签当中,然后我们就去网页的源代码中确定了2.先获取网页的源代码 整个html文件3.从网页的源代码当中去匹配ul标签的数据4.从ul标签里面去匹配li标签的数据5.去解析原创 2021-05-16 17:14:09 · 356 阅读 · 1 评论 -
2021/5/14爬虫第十二次课(selenium操作,cookie)
文章目录一、selenium定位元素1.1通过标签1.2通过属性1.3通过xpath二、操作元素2.1操作输入框2.2操作按钮2.3下拉框操作2.3.1下拉框是select元素2.3.2下拉框不是select元素三、(案例)通过selenium登录豆瓣四、通过selenium获取cookie一、selenium定位元素1.1通过标签find_element_by_tag_name:根据标签名来查找元素submitTag = driver.find_element_by_tag_name('div')原创 2021-05-15 22:21:04 · 227 阅读 · 1 评论 -
模板第一次总结--语法
1.seleniumfrom selenium import webdriverimport timedriver = webdriver.Chrome()2.bs4from bs4 import BeautifulSoupsoup = BeautifulSoup(html_doc,"lxml")a_tag = soup.find('a') # 此时这个a就代表的是字符串过虑器a_tas = soup.find_all('a')a_tas = soup.select('a')3.xp原创 2021-05-14 11:44:47 · 7090 阅读 · 0 评论