爬虫
skywinne
我可以输,但我不服输!
展开
-
记录一下xpath提取不到值(iframe多层嵌套)的问题
今天爬取中彩网福彩3d[http://www.zhcw.com/3d/]的时候,碰到iframe嵌套,xpath始终取不到值,如下图:无论怎么取值,都为null,后来发现有个这个东西然后直接进入到url里面,就可以取到值了好了,问题解决,查阅网上资料,听说可以正面攻克,比较麻烦,不推荐花时间去做这东西。最后附上本人代码,爬虫框架用的是scrapy,存储用的MySQL数据库。item...原创 2018-11-07 21:19:58 · 9831 阅读 · 2 评论 -
爬虫开发环境搭建-各种库的安装(基于python3.7)
基于Windows爬虫开发环境搭建1.Python3的安装1.1 安装包的下载python3.71.2 安装勾选Add Python 3.7 to PATH 自动配置环境变量。1.3 测试验证2. 创建Virtualenv爬虫虚拟环境2.1 为了项目整洁最好给每个项目各自创建一个独立的python虚拟环境,不使用Anaconda是因为它太过繁重。2.2 在命令行工具中输入 pip...原创 2018-11-17 23:28:57 · 481 阅读 · 1 评论 -
Scrapy+Selenium的使用
Scrapy+Selenium的使用一、新建项目二、定义item三、Spider四、对接selenium五、存储,暂时先存本地六、爬取数据如下现在大多数网站反爬严格,通过js实现了数据的加密,破解起来非常吃力,用Selenium可以很好的绕过反爬,我们不需要关心页面后台发生的请求,也不需要分析渲染过程,就可以拿到我们想要的数据,因此学习一下Scrapy+Selenium,就拿某官网进行开刀!一...原创 2019-08-30 15:50:55 · 1688 阅读 · 0 评论