爬虫
dhd040805
这个作者很懒,什么都没留下…
展开
-
Ali1688爬虫实践(1)
我的想法是爬取1688上面的企业信息,最开始的思路是直接搜索商品通过selenium爬取,结果整出来的爬虫效率太低舍弃了,不过也把代码贴出来,以供参考,采用的是pyquery+beautifulsoup+selenium+MongoDBfrom selenium import webdriverfrom selenium.webdriver.support.wait import WebD...原创 2019-02-28 15:28:34 · 1100 阅读 · 0 评论 -
Ali1688爬虫实践(2)
前面文章是基础篇,也是参考网上一些资料做的一个实验,结果效率太差,直接舍弃,第二种方法采用的是scrapy+xpath+mongodb+第三方ip代理做的数据爬取,下面简单做个网页分析由于从首页进入一个个搜索的话会有很多弹窗,所以考虑过用selenium模拟点击关闭各种弹窗以及验证等等,但是效率实在不敢恭维,虽然封ip没那么严重,但是没那么多时间消耗,所以后来考虑直接通过1688供应商按...原创 2019-02-28 16:35:09 · 4032 阅读 · 0 评论