![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
GQ_on the way
这个作者很懒,什么都没留下…
展开
-
selenium全解
Selenium基本使用from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom selenium.webdriver.support import expected_conditions as E...原创 2020-03-10 21:09:46 · 410 阅读 · 0 评论 -
拉勾网AJAX-json数据的获取
# Author : GQ# Datetime : 2020/2/20 20:23# Product : PyCharm# Project : python# File : selenium爬取拉钩网.pyimport requestsfrom fake_useragent import UserAgentfrom lxml import etreeua...原创 2020-02-20 21:18:09 · 661 阅读 · 2 评论 -
selenuim补充小知识点
driver_path = r"D:\Google\Chrome\Application\chromedriver.exe"driver = webdriver.Chrome(executable_path=driver_path)driver.get('https://www.baidu.com')# 给一个页面截图driver.save_screenshot('baidu.png')...原创 2020-02-20 19:41:11 · 95 阅读 · 0 评论 -
selenium设置代理
# 设置option选项options = webdriver.ChromeOptions()options.add_argument('proxy-server=http://123.163.27.90:9999')driver_path = r"D:\Google\Chrome\Application\chromedriver.exe"driver = webdriver.Chrom...原创 2020-02-20 19:25:46 · 358 阅读 · 0 评论 -
selenium打开多个标签与切换
打开多个标签页首先举个错误的思路driver_path = r"D:\Google\Chrome\Application\chromedriver.exe"driver = webdriver.Chrome(executable_path=driver_path)driver.get('https://www.baidu.com/')driver.get('https://www.dou...原创 2020-02-19 22:49:06 · 6245 阅读 · 2 评论 -
selenium显式等待与隐式等待
页面等待现在的网页越来越多采用了 Ajax 技术,这样程序便不能确定何时某个元素完全加载出来了。如果实际页面等待时间过长导致某个dom元素还没出来,但是你的代码直接使用了这个WebElement,那么就会抛出NullPointer的异常。为了解决这个问题。所以 Selenium 提供了两种等待方式:一种是隐式等待、一种是显式等待。隐式等待driver_path = r"D:\Google\C...原创 2020-02-19 21:30:10 · 199 阅读 · 0 评论 -
selenium操作Cookie
driver_path = r'D:\ProgramApp\chromedriver\chromedriver.exe'driver = webdriver.Chrome(executable_path=driver_path)driver.get("https://www.baidu.com/")获取所有cookie# get_cookies返回的是一个列表 for cookie i...原创 2020-02-19 16:36:06 · 130 阅读 · 1 评论 -
selenium行为链-自动化
行为链有时候在页面中的操作可能要有很多步,那么这时候可以使用鼠标行为链类ActionChains来完成。比如现在要将鼠标移动到某个元素上并执行点击事件首先导入库from selenium.webdriver.common.action_chains import ActionChains具体代码driver_path = r"D:\Google\Chrome\Application\c...原创 2020-02-19 16:13:25 · 327 阅读 · 0 评论 -
selenium常见的表单操作
常见表单数据input type='text/password/email/number'button, input[type='submit']checkbox: input='checkbox'select:下拉列表清除输入框内容driver_path = r"D:\Google\Chrome\Application\chromedriver.exe"driver = webd...原创 2020-02-19 13:23:13 · 1191 阅读 · 0 评论 -
selenium定位元素方法及思路补充
selenium定位元素方法更多教程参考:更多教程请参考:http://selenium-python.readthedocs.io/installation.html#introduction下列代码需要用到的库from selenium import webdriverimport timefrom lxml import etreeselenium的关闭和退出drive...原创 2020-02-18 18:08:22 · 148 阅读 · 0 评论 -
Selenium的安装及简单使用
Selenium+chromedriver获取动态数据Selenium相当于是一个机器人。可以模拟人类在浏览器上的一些行为,自动处理浏览器上的一些行为,比如点击,填充数据,删除cookie等。chromedriver是一个驱动Chrome浏览器的驱动程序,使用他才可以驱动浏览器。当然针对不同的浏览器有不同的driver。以下列出了不同浏览器及其对应的driver:Chrome:https://...原创 2020-02-18 12:06:04 · 321 阅读 · 0 评论 -
AJAX动态数据获取的两种方式
AJAX数据及提取的两种方式什么是AJAX AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML。过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。传统的网页(不使用Ajax)如果需要更新内容,必须重载整个网页页面。因为传统的在传输数据格式方面,使用的是...原创 2020-02-17 21:20:53 · 1701 阅读 · 0 评论 -
csv文件处理
CSV文件处理import csv读取csv文件以列表的形式获取文件信息with open('data.csv', 'r') as f: # reader是一个迭代器 reader = csv.reader(f) for read in reader: print(read)# 获取出来是列表的形式['用户ID', '客户分类', '区域',...原创 2020-02-17 13:42:31 · 160 阅读 · 0 评论 -
json文件处理
jsonJSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。它基于 ECMAScript (w3c制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。(可百度)JSON支持的数...原创 2020-02-17 11:00:39 · 372 阅读 · 0 评论 -
BeautifulSoup解析库的简单使用
BeautifulSoup中文文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlfrom bs4 import BeautifulSouphtml = """<ol class="grid_view"> <li> <div cl...原创 2020-02-16 20:11:44 · 390 阅读 · 0 评论 -
爬取豆瓣电影top250详情页
# Author : GQ# Datetime : 2020/2/12 20:28# Product : PyCharm# Project : python# File : 豆瓣top250带详情页.pyimport requestsfrom fake_useragent import UserAgentfrom lxml import etreeimp...原创 2020-02-13 14:16:01 · 1326 阅读 · 0 评论 -
LXML(Xpath)解析库的使用
简介xpath是一种html和xml的查询语言,它能够在html和xml的树状结构中寻找节点基础知识https://mp.weixin.qq.com/s?__biz=MzAxMTkwODIyNA==&mid=2247492577&idx=2&sn=c4932b7c44dc28d2583f045429fb03c6&source=41#wecha...原创 2020-02-11 12:58:27 · 261 阅读 · 0 评论 -
requests库基本使用
requeses库安装pip install requests中文文档:http://docs.python-requests.org/zh_CN/latest/index.htmlgithub地址:https://github.com/requests/requestsimport requests发送get请求最简单的发送get请求就是通过requests.get来调用r...原创 2020-02-07 20:23:28 · 535 阅读 · 0 评论