爬虫
打小我就狂
这个作者很懒,什么都没留下…
展开
-
scrapy session和cookie区别 Selenium模拟登录 验证码识别
Selenium:安装:CMD pip install selenium使用:可以时时获取数据.拿到加载完成的数据需要下载directory 对应版本页面过滤筛选拿到价格:模拟登录操作:1.先定位帐号密码的位置,登录按钮自动输入帐号密码点击验证码识别:被识别用diver访问解决办法:1.2.手动启动chomedriver:1.启动chrome(CMD) 确保所有的chrom都关闭:测试必须能看..原创 2021-04-11 21:09:03 · 303 阅读 · 0 评论 -
scrapy 爬虫数据导出或 同步|异步插入数据库 itemloader提取信息追加原数据 大规模抓取图片下载错误
1.爬虫导出方法使用:2.导入数据库:1.创建表结构:2.安装数据库驱动:(pip install -i https://pypi.douban.com/simple mysqlclient)数据库连接:声明到settings.py:异步入库:解决异步插入数据库重复插入问题:itemloader提取信息:1.追加修改爬取的值 可以增加多个值:2.修改原数(list)据变成s原创 2021-04-11 00:24:38 · 181 阅读 · 0 评论 -
scrapy 爬虫下载操作 数据保存 错误PIL解决 数据保存到JSON文件
1.item只有两种类型可以yield:item-数据保存会进入pipelines.py文件保存数据item进入pipelines.py步骤:1.设置robots协议(部分网站设定不允许爬取需要解开)修改为false2.解开注释让数据走pipelines.py2.1注释解除后进入pipelines.py这时候数据就能到这里是否保存再这里操作2.2.配置pipelines:request-走下载-进入pipelines.py步骤:2.爬虫下载图片:1.配置下原创 2021-04-10 14:32:59 · 278 阅读 · 0 评论 -
scrapy CSS抓取元素 xpath抓取 requests-JS数据请求抓取获取数据 re 正则表达式筛选 JSON转换使用 items页面使用
CSS抓取元素:next_url = response.css("div.pager a:last-child::text").extract_first("这里给双引号是默认值") xpath抓取:requests获取动态数据转换JSON:re 正则表达式筛选:JSON转换使用:items.py页面使用:1.生成对应字段.存在数据库里面:2.引入声明3.获取静态值:4.获取动态值:转换MD...原创 2021-04-08 18:57:47 · 213 阅读 · 0 评论 -
scrapy爬虫 Xpath语法
使用xpath:CSS使用:原创 2021-03-28 23:01:48 · 140 阅读 · 0 评论 -
scrapy爬虫学习 安装scrapy 新建项目 启动爬虫
1.安装:第一种容易出错: pip install -i http://pypi.douban.com/simple scrapy第二种下载安装包安装:网站:https://www.lfd.uci.edu/~gohlke/pythonlibs/需要下载的4个包:1.lxml2.twisted 高性能的包重要3.scrapy:4.PyWin32安装 最好按顺序安装最后安卓scrapy:CMD进入到下载的包目录下1.2.3....原创 2021-03-27 12:17:52 · 232 阅读 · 2 评论