
Python - 爬虫
T型人小付
任职于某游戏公司新加坡分部,自动化运维/python全栈/IT,梦想是35岁前可以不需要通过投简历的方式换工作。
展开
-
利用scrapy爬取京东移动端的图片素材和商品信息
有一个练习项目需要一些带分类信息的商品测试图片,从现有的电商网站爬取是个不错的选择。刚好最近又在练习scrapy的使用,这一篇记录一下用scrapy爬取京东的图片素材并保存商品信息的思路。文中代码共享在我的Github中JDcrawler项目。文章目录爬取目标动态加载和跨域请求思路分析获取子分类信息获取具体商品信息scrapy配置代码实现item部分spider部分pipeline部分结果展示后续改进总结爬取目标为什么选择京东?因为我需要的图片是手机版尺寸,而刚好京东支持手机网页打开的适配。如下,原创 2020-09-02 17:25:58 · 2357 阅读 · 0 评论 -
爬虫Xpath语法详解
xpath是定位dom元素非常直观的方法之一,在爬虫中的使用尤其常见。文章目录绝对路径和xpath浏览器自带的xpath工具xpath语法常用符号定位元素多重定位多条件组合获取属性或文字xpath在爬虫中的使用绝对路径和xpath关于html的dom树这里就不赘述了,相信根节点,子节点,兄弟节点这些概念大家也都听的很多。在一棵dom树里面,想定位某个元素有绝对路径和xpath的区分。如下图所示,选择了一个img标签以后点击右键,可以选择是复制xpath还是完整的路径如果是绝对路径结果是这样的/原创 2020-08-29 19:36:59 · 7478 阅读 · 2 评论 -
网址url中的百分号是什么编码以及如何用python实现url编码
相信大家在玩爬虫的时候,经常需要自己去批量构建url,但是有的时候网站中作为参考的同类型url却包含一串百分号的乱码,让我们自己在构建的时候无从下手。这一篇博客就来一起看看这些百分号到底是什么东西。文章目录问题描述为什么要编码?python的编码操作总结问题描述今天在爬虫的时候,需要构建的一个url需要附加搜索内容,例如爬取搜索内容为“零食 京东超市”的url,如果原样输出应该是https://so.m.jd.com/ware/search.action?keyword=零食 京东超市但是实际的原创 2020-08-20 17:58:36 · 4815 阅读 · 2 评论 -
http和https代理区别
proxy服务器可以作为访问http和https资源的网关,这两种类型的存在造成了一种困惑,从而引发配置错误甚至安全漏洞。下面我们就一起来看一下这两种类型的proxy分别做了什么。http proxy先来看看流程,http客户端发送一个请求到http代理,让代理到远端目的服务器上获取资源然后传递给客户端。远端服务器上的资源不一定要通过http协议访问,只要代理支持,http客户端可以发送ftp...翻译 2020-02-10 11:53:09 · 2910 阅读 · 1 评论