
python爬虫
二木成林
这个作者很懒,什么都没留下…
展开
-
python爬虫(6)——Selenium的使用
目录下载安装Seleniumselenium元素定位控制浏览器操作控制浏览器窗口大小控制浏览器前进后退刷新页面WebDriver常用方法点击和输入提交其他方法鼠标事件键盘事件获取断言信息设置元素等待显式等待隐式等待定位一组元素多表单切换多窗口切换警告框下拉列表框选择文件上传操作cookie调用JavaS...原创 2019-12-06 19:10:27 · 1229 阅读 · 0 评论 -
python爬虫(5)——BeautifulSoup的使用
目录BeautifulSoup的使用BeautifulSoup的下载安装BeautifulSoup的简单使用获取标签信息搜索文档树CSS选择器BeautifulSoup的使用BeautifulSoup的下载安装使用pip工具在DOS窗口进行下载安装,敲入命令:pip install bs4BeautifulSoup的简单使用data.html&...原创 2019-12-02 20:03:02 · 339 阅读 · 0 评论 -
python爬虫(4)——xpath表达式
目录xpath表达式xpath介绍和lxml安装xpath介绍lxml安装解析字符串格式的HTML解析本地HTML文件按标签名获取内容按属性获取标签获取标签的属性获取子标签获取标签内容和标签名xpath表达式xpath介绍和lxml安装xpath介绍# xpath表达式 只能处理HTML文档,但是比正则表达式更加简单# xpath是...原创 2019-12-01 13:27:09 · 658 阅读 · 0 评论 -
python爬虫(3)——re库的使用
目录re库的使用正则表达式介绍匹配普通字符匹配通用字符匹配数字、中文及英文原子表常用元字符匹配固定次数匹配多个正则表达式分组贪婪模式和非贪婪模式compile函数match函数和search函数findall函数和finditer函数split函数和sub函数re库的使用正则表达式介绍import re# 正则表达式#...原创 2019-11-30 19:05:59 · 836 阅读 · 0 评论 -
python爬虫(2)——requests库的使用
目录requests库的使用requests库的安装requests的简单使用添加请求头和参数处理POST请求代理IP获取响应的cookiesession实现登录requests库的安装由于requests模块属于第三方模块,所以需要下载安装下载安装很简单,打开DOS窗口输入如下命令:pip install requests即可下载requ...原创 2019-11-29 20:06:14 · 1329 阅读 · 0 评论 -
python爬虫(1)——urllib库的使用
目录urllib库的使用第一个爬虫中文处理自定义请求伪装浏览器的爬虫添加多个UserAgent自定义opener设置opener为全局使用代理处理GET请求POST请求处理异常使用Cookie模拟登陆urllib库实践使用百度贴吧网页下载有道翻译百度翻译谷歌翻译urllib库的使用第一个爬虫import urll...原创 2019-11-29 17:11:49 · 859 阅读 · 0 评论