Python爬虫
文章平均质量分 91
Leer_weini
这个作者很懒,什么都没留下…
展开
-
学习笔记 -- Python爬虫 - selenium
本文记录selenium的用法及安装, 具体理论和详细内容请参考: https://cuiqingcai.com/5627.htmlhttp://www.testclass.net/selenium_python/mouse-eventselenium安装1. 安装 selenium 打开 cmd : pip install selenium2. 下载浏览器驱动在这里提供三个常用的下载地址(更多的浏览器驱动请查看首行第二个链接):ChromedriverFirefoxdriv.原创 2020-12-03 09:41:43 · 684 阅读 · 1 评论 -
学习笔记 -- Python爬虫 - cookie session 和 代理ip
#内容为视频笔记及个人理解,若有错误还望各位大佬指正http及https特性: 无状态当我们使用程序向服务器发出请求时, 如果页面中含有登录信息, 那么我们再次访问该页面时仍然会抛出登录提示, 因为服务器并不会记录我们在网页当中记录的操作, 这就是 无状态 (即使我们在同一个程序中已经登陆过)cookie用来让服务器端记录客户端的相关状态当我们登录访问一个网页时, 服务器端会返回一个 cookie 用来识别发出请求的是谁, cookie 由服务器创建, 保存在客户端, cookie.原创 2020-11-28 19:48:50 · 337 阅读 · 0 评论 -
学习笔记 -- Python爬虫 - 数据解析之xpath
#内容为视频笔记及个人理解,若有错误还望各位大佬指正xpathxpath 通过将源码实例化为一个对象来进行处理如何实例化一个对象通过将本地的html文档中的源码数据加载到etree对象中etree.parse(filepath)将互联网上获取的源码数据加载到该对象...原创 2020-11-28 09:20:30 · 203 阅读 · 0 评论 -
学习笔记 -- Python爬虫 - 数据解析之bs4
#内容为视频笔记及个人理解,若有错误还望各位大佬指正聚焦爬虫建立在通用爬虫的基础之上, 提取网页当中的部分内容, 学习中共记录了三种提取的办法正则表达式bs4Xpath正则表达式 (案例1)要求: 爬取糗事百科的图片import requestsimport reimport osdef get_pic(num_): for num in range(1, num_+ 1): url = "https://www.qiushibaike.c.原创 2020-11-26 14:53:16 · 336 阅读 · 0 评论 -
学习笔记 -- Python爬虫 - 数据解析之正则表达式
#内容为视频笔记及个人理解,若有错误还望各位大佬指正聚焦爬虫建立在通用爬虫的基础之上, 获取页面当中指定的局部数据指定url发起请求获取响应数据数据解析持久化存储数据解析正则bs4xpath数据解析原理概述解析的局部的文本内容都会在标签之间或者标签对应的属性当中进行指定标签的定位标签或者标签对应的属性中存储的数据值进行提取(解析)数据解析 – 正则表达式(部分常用正则表达式) 单字符字符作用.除换行符以外的所有字符.原创 2020-11-24 23:22:28 · 250 阅读 · 0 评论 -
学习笔记 -- Python爬虫 - requests模块(通用爬虫)
#内容为视频笔记及个人理解,若有错误还望各位大佬指正requests模块python中原生的一款基于网络请求的模块, 能够模拟浏览器发出请求。 指定 URL发出请求获取响应数据持久化存储import requestsurl = "https://www.sogou.com" # 指定URlresponse = requests.get(url=url) # 发出请求 并接收 get 所返回的响应对象page_text = response.text .原创 2020-11-21 17:52:31 · 287 阅读 · 0 评论 -
学习笔记 -- Python爬虫 - 基础知识
#内容为个人理解,若有错误还望各位大佬指正什么是爬虫网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。网络爬虫为搜索引擎从万维网下载网页。也被叫做 网络蜘蛛。简单来说就是通过某种手段,机械化的去浏览网页,并将想要得到的内容拿出来爬虫在使用场景种的分类通用爬虫:抓取系统重要组成部分。抓取的是一整张页面数据聚焦爬虫:建立在通用爬虫基础之上。抓取的页面中特定的局部内容增量式爬虫:检测网站中数据更新的情况。只会抓取网站中最新更新出来的数据反原创 2020-11-20 15:27:16 · 249 阅读 · 2 评论