爬虫
Cqw150
这个作者很懒,什么都没留下…
展开
-
个人爬虫问题总结
1.例:爬取天猫网站的店铺名是,根据页面标签获取div 为空 。分析:通过下载页面信息,发现,店铺名的div跟网站上的不同。所以 网站上的div是通过js等文件生成,本身并不存在。要根据下载下来的页面信息div进行获取。2.例:爬取淘宝网站分类信息,会出现爬虫验证,输入验证码。分析:有三种解决办法1.设置爬虫的时间间隔,伪装的更像人为操作。2.通过代理进行爬取(设置代理Ip池,ip不能使用马上替换...原创 2018-05-09 22:06:46 · 499 阅读 · 1 评论 -
scrapy之CrawlSpider 样例分析
crawlSpider 概念性的知识此处不再赘述。下面直接上自己写的一个例子,并列出碰到的问题,方便以后复习。由于是刚开始学习这个框架,碰到的问题都很小白。该例子是通过51的一个列表页面,获取该页面的所有详情页链接,并解析。items.py:(注:这里并没有抓取详情页的全部招聘信息,只是大概列了几个,检查效果)class jobTest(scrapy.Item): title...原创 2018-11-16 09:07:43 · 238 阅读 · 0 评论 -
scrapy之Spider样例解析
刚开始学习这个框架,第一个使用Spider写的爬虫:通过关键字,抓取杭州人才网的信息。代码如下item.py#处理空格def str_strip(str): return str.strip().replace('\n', '').replace('\t', '').replace('\r', '').replace(' ', '')def except_name(conta...原创 2018-11-20 10:16:31 · 576 阅读 · 0 评论