【Python】| 爬虫
文章平均质量分 63
假IT女
不学习,一无所有
展开
-
Python爬虫【十】数据存储2-自动化办公
Python爬虫【九】数据存储2-自动化办公1、合并文件2、统计数据3、发送邮件1、合并文件# 读取前五天的销售数据,汇总到一个文件中import csvfilenames = ['2019-12-%02d-销售数据.csv' % (i+1) for i in range(5)]with open('12月销售数据汇总.csv', 'w', newline='') as file: csv_writer = csv.writer(file) for filename in f原创 2021-10-20 15:18:00 · 412 阅读 · 0 评论 -
Python爬虫【九】数据存储1-openpyxl
Python爬虫【九】数据存储1-openpyxl1、Excel文件2、CSV文件1、Excel文件Excel文件又称工作簿(workbook),每个工作簿中可以新建多个工作表(worksheet),每个工作表又有很多个单元格组成,每个单元格通过列和行来定位。主要概念:文件名、工作表、单元格。通过openpyxl模块操作Excel文件,openpyxl是第三方模块,安装:pip install openpyxlExcel文件写入的步骤:(1)创建工作簿 wb = openpyxl.Workbo原创 2021-10-19 17:23:32 · 601 阅读 · 0 评论 -
Python爬虫【八】动态网页爬虫4-爬虫实战
Python爬虫【八】动态网页爬虫4-爬虫实战1、编程思维2、实战:自动发微博3、爬虫注意点1、编程思维(1)问题分解:把现实生活中的复杂问题,逐步拆分成容易解决的小问题;(2)模式识别:根据已有的知识和经验,找出新问题和以前解决过的问题的相似性;(3)抽象思维:将问题里涉及的数据抽象到数据结构(变量、列表、字典等),把数据处理过程可重复执行部分抽象成函数;(4)算法设计:根据前三步的分析成果,设计步骤,写出算法,从而解决问题。2、实战:自动发微博发微博–登录微博、发送微博,用面向对象的方法重原创 2021-10-18 15:47:38 · 235 阅读 · 0 评论 -
Python爬虫【七】动态网页爬虫3-selenium
Python爬虫【七】动态网页爬虫3-selenium1、selenium2、打开浏览器、获取数据3、1、seleniumselenium是浏览器自动化测试框架,被用于网页测试;但到了爬虫领域,又成为了爬虫的好帮手。selenium可以控制浏览器,模仿人浏览网页,从而获取数据,自动操作等。安装selenium:pip install selenium安装对应的浏览器驱动:(1)查看浏览器版本:打开Chrome浏览器,点击浏览器右上角的三个点-帮助-关于Google Chrome(2)谷歌原创 2021-10-18 10:11:53 · 312 阅读 · 0 评论 -
Python爬虫【六】动态网页爬虫2-cookie
cookiecookie 是浏览器存储在用户电脑上的一小段文本文件。该文件里存了加密后的用户信息,过期时间等,且每次请求都会带上 cookie。cookie 就像一张通行证,只有拥有通行证且通行证未过期时,服务器才会放行:cookie 的作用不仅仅是用于判断你是否登录了账号,还常被用于记录你的操作行为、浏览记录等。session有了cookie之后,可以将一些信息存到其中,比如用户身份信息等。但cookie 容量有限,只有 4KB,所以不可能将所有的用户信息都存到里面。这时候,sessi.原创 2021-10-15 15:06:08 · 664 阅读 · 0 评论 -
Python爬虫【五】动态网页爬虫1-API
Network面板Network 记录的是从打开浏览器的开发者工具到网页加载完毕之间的所有请求。Network面板常用功能:(1)清空按钮Clear:用于清空请求列表(2)保留记录Preserve Log:勾选后会保留请求记录,常用于发生页面跳转时保留前一个页面的所有请求记录(3)请求类型过滤器:ALL表示查看全部,点击其他的只会展示对应类型的请求。爬虫中常用的有ALL、XHR、Img、Media名称含义All全部类型XHRXMLHttpRequest类型.原创 2021-10-15 10:05:51 · 1242 阅读 · 0 评论 -
Python爬虫【四】静态网页爬虫2-反爬虫
反爬虫反爬虫是网站限制爬虫的一种策略。它并不是禁止爬虫(完全禁止爬虫几乎不可能,也可能误伤正常用户),而是限制爬虫,让爬虫在网站可接受的范围内爬取数据,不至于导致网站瘫痪无法运行。常见的反爬虫方式有 判别身份 和 IP限制 两种判别身份浏览器\爬虫访问网站时都会带上一些信息用于身份识别,这些信息都被存储在一个叫请求头(Request Headers)的地方。查看请求头的步骤:(1)点击Network标签(里面记录了所有网络请求)(2)点击第一个请求(3)找到Request Head.原创 2021-10-14 10:35:15 · 269 阅读 · 0 评论 -
Python爬虫【三】静态网页爬虫1-BeautifulSoup
BeautifulSoup库pip install beautifulsoup4通过定位html标签来格式化和组织复杂的网页源代码,用简单易用的python对象来展示出html结构信息。解析数据import requestsfrom bs4 import BeautifulSoupheaders = { 'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML,.原创 2021-08-03 02:03:27 · 227 阅读 · 0 评论 -
Python爬虫【二】认识爬虫
爬虫的工作原理(1) 获取数据打开网站:爬虫(寻找网站服务器)> 请求 > 服务器(返回网站内容) > 响应 > 爬虫(2) 处理数据(爬虫)(3) 存储数据(爬虫)requests获取数据(1)请求 > 服务器 > (2)响应 > res=requests.get('网站地址') > (3)将响应结果存到变量res中response对象的常用属性response.status_code 响应的http状态码response..原创 2021-08-01 04:38:53 · 235 阅读 · 0 评论 -
Python爬虫【一】requests库
requests安装(1)requests的中文文档页面https://requests.kennethreitz.org/zh_CN/latest/(2)将下载的tar.gz包解压,放到Python安装目录下的lib包内(3)Win+R打开cmd命令提示符,输入pip install requests如何找到Python的安装目录(1)Win+R打开cmd命令提示符,输入where python,找到电脑中已经安装的Python位置where python(2)打开路径,.原创 2021-08-01 03:43:08 · 212 阅读 · 0 评论