python爬虫
文章平均质量分 68
当一颗恒星
这个作者很懒,什么都没留下…
展开
-
爬虫时报错Message: This version of ChromeDriver only supports Chrome version xx
爬虫报错Message: This version of ChromeDriver only supports Chrome version xx原创 2022-06-09 10:12:23 · 406 阅读 · 1 评论 -
print(r.text)输出时乱码
解决方法: r=requests.post(url,data=data,headers=headers) r.encoding='GBK' #编码方式改为'GBK'即可 print(r.text)原创 2021-01-27 21:05:20 · 1268 阅读 · 0 评论 -
selenium学习笔记
常见使用API的方法 跳转至指定网页 driver.get(‘http://www.baidu.com’) 获取当前页面标题内容 driver.title 获取当前网页地址 driver.current_ur 5. 回退到之前打开的页面 driver.back() 前进到回退之前的页面 driver.forward() 获取页面上的元素 #寻找id为’su’的元素 driver.find_element_by_id('su') #寻找n原创 2021-01-23 00:01:30 · 198 阅读 · 1 评论 -
Scrapy学习之路(二)-scrapy保存到mysql数据库
scrapy保存到mysql数据库 在Scrapy学习之路(一)中,讲Scrapy架构图时提到ItemPipeline:项目管道,负责处理spider从网页中抽取的数据,主要是负责清洗,验证和向数据库中存储数据,所以 提取到数据后,编写pipeline.py文件,保存数据到mysql。 一、保存数据库有两种方法: 同步操作:数据量少的时候采用。 异步操作:数据量大的时侯采用。scrapy爬取的速度大于数据库插入的速度,当数据量大时就会出现堵塞,就需要采用异步保存。 二、须知的mysql知识点 数据库与原创 2021-01-17 23:03:48 · 428 阅读 · 0 评论 -
Scrapy学习之路(一)-爬虫
简单使用Scrapy框架的必记命令: 创建项目:scrapy startproject xxx 进入项目:cd xxx #进入你创建的项目文件夹下 创建爬虫:scrapy genspider xxx(爬虫名) xxx.com (爬取域,可有可无) 生成文件:scrapy crawl xxx -o xxx.json (生成某种类型的文件) 运行爬虫:scrapy crawl xxx(爬虫名) 列出所有爬虫:scrapy list 获得配置信息:scrapy settings [options] 制作 Scra原创 2021-01-14 20:31:39 · 300 阅读 · 0 评论 -
Python中的yield
yield是生成器,是一个迭代对象: 附上一个参考链接:https://www.jianshu.com/p/d09778f4e055 1、yield 是一个类似于 return 的关键字,迭代一次遇到yield时就返回yield后面(右边)的值。重点是:下一次迭代时,从上一次迭代遇到的yield后面的代码(下一行)开始执行。 2、简要理解:yield就是 return 返回一个值,并且记住这个返回的位置,下次迭代就从这个位置后(下一行)开始。 3、带有yield的函数不仅仅只用于for循环中,而且可用于某个原创 2021-01-13 22:13:58 · 217 阅读 · 0 评论 -
window10系统 64位 Python3.7安装Scrapy教程
安装scrapy过程中会出现各种包安装错误,是因为scrapy的安装依赖于其他环境,所以,在安装scrapy之前,要先安装以下几个包: wheel Pywin32 lxml twisted 安装步骤如下: 1、首先要有pip工具和python IDLE(我的是python3.7,64 位), 2、升级pip工具:以管理员身份运行cmd,输入python -m pip install --upgra...原创 2020-02-07 10:58:10 · 774 阅读 · 1 评论