![](https://img-blog.csdnimg.cn/20210919114440821.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
网络爬虫开发
文章平均质量分 85
主要介绍python语言实现网络爬虫常用技术,爬虫初步实践,实现爬虫小案例
夺笋123
生如逆旅单行道
展开
-
关于selenium配置Chrome驱动(Windows系统)
目录浏览器版本与驱动版本1. 浏览器版本查看2. 驱动版本选择与下载Chromedriver的配置1. 使用executable_path参数2. 创建Service对象3. 使用默认值selenium测试工具可以用来模拟用户浏览器的操作,其支持的浏览器有:PhantomJS,Firefox,Chrome等等,开发者可以根据当前的系统形式选择不同的模拟浏览器每种模拟浏览器都需要对应的浏览器驱动(一个以.exe为后缀的可执行文件),笔者使用谷歌浏览器Chrome,对应的浏览器驱动可以通过下面的网址下载原创 2021-11-12 00:49:54 · 12322 阅读 · 1 评论 -
网页信息获取--requests库
目录requests库requesets库中的主要方法requests库中两个重要对象Request对象Response对象基于requests的基础爬虫框架requests库python的一个HTTP库(第三方,需要使用pip命令安装),主要用途为发送网络请求,根据服务器的要求不同,可以使用GET、POST、PUT等方式进行请求,并可以对请求头进行伪装,使用代理访问requesets库中的主要方法方法描述requests.request()构造一个请求,是支持下面的基础方法(原创 2021-11-09 22:53:39 · 1167 阅读 · 0 评论 -
python第三方库--selenium库
目录简介selnium是一个自动化测试工具,支持各种浏览器,简单的说就是selenium可以操作浏览器,加载一些需要动态加载的界面安装selenium库后还需要安装对应浏览器的驱动selenium webdriver的基本操作定位到元素后,还需要进行以下相应的操作,下面介绍一些常用的方法方法描述get(url)访问urlback()后退上一步forward()前进下一步quit()退出驱动关闭所有窗口close()关闭当前窗口maxim原创 2021-11-08 17:22:20 · 1701 阅读 · 3 评论 -
网页信息解析--lxml库之xpath定位
目录xpathxpath使用示例使用xpath的一般步骤实例分析:爬取豆瓣的电影名实例:爬取豆瓣250电影信息xpathXML Path Laguage的缩写,可用于查找 HTML元素及元素属性,Xpath利用自己特有类似路径的标记方法来定位HTML中嵌套的元素关系基本表达式表达式简介例子/绝对路径,从根节点匹配/body/div,匹配HTML下body下的所有div元素//相对路径,匹配所有子节点//div,匹配HTML中所有的div元素@属性选择//原创 2021-11-06 12:01:48 · 597 阅读 · 0 评论 -
网页信息解析--BeautifulSoup库
目录Beautifulsoup库简介基于bs4库的html文本遍历方法下行遍历上行遍历平行遍历BeautifulSoup库解析器基于bs4库的格式化和编码信息提取基于bs4的html内容查找方法Beautfulsoup网页解析Beautifulsoup库简介解析、遍历、维护‘标签树’的功能库<p class="title"></p>基本元素描述格式Tag标签,最基本的信息组成单元,分别用<>和</>标明开头和结尾Nam原创 2021-09-20 21:38:09 · 639 阅读 · 0 评论