爬虫
zhiwei0701
这个作者很懒,什么都没留下…
展开
-
淘宝、天猫等电商爬虫问题与总结(一)
电商爬虫问题与总结(一)总结之前,先放上github地址,有任何想法和建议的欢迎指出:电商爬虫 此次电商数据采集器(爬虫)共采集10个电商平台(淘宝、天猫、京东、国美、苏宁、拼多多、亚马逊、1688、一号店、慧聪)的数据,这里将公司的业务需求全部去除掉,基本的电商数据是全的。下面简单说一下整个的思路: 采集器使用activemq作为消息队列,采用生产者和消费者的模式,用来分发任务与...原创 2018-07-22 21:31:28 · 13994 阅读 · 3 评论 -
京东等电商爬虫问题与总结(二)
京东等电商爬虫问题与总结(二)京东 这一段时间比较忙,更新也不及时。。。下面将总结一下在写京东爬虫的时候,遇到的一些问题。 京东的页面,列表页的数据基本包含了所有的信息了,详情页里面也没有什么有价值的信息了。所以我的数据都是取自于列表页。并且京东的数据经过我多次测试(主要是公司很多运营同学在使用。。。),他是不反爬的。 因为我使用的是webmagic这个框架,所以页面下载、解析这些继承...原创 2018-08-17 23:35:21 · 13688 阅读 · 1 评论 -
webmagic scheduler源码分析
webmagic scheduler源码分析项目中使用webmagic作为爬虫爬取框架,需要实现2个功能:对于一些未爬取到的URL,需要做重试机制,重复爬取,设置爬取次数,直至爬取到网页内容或者达到重试次数。用户点击停止,则停止对剩余URL的爬取。这二个功能的添加都是对scheduler模块进行改造,webmagic的scheduler模块负责管理待抓取的URL,以及一些去重的工作。W...原创 2019-07-14 17:28:13 · 461 阅读 · 0 评论 -
总结爬虫相关(以电商淘宝为例)
总结爬虫相关(以电商淘宝为例)首先对于爬虫,我一直持有的想法就是你会写代码,你就会写爬虫(当然以我现在接触到的以及使用过的语言而言使用过的编程语言有python和java,此处就特指java和python)。掌握了一门语言的语法,会写几个案例,可以跑起来,一些简单的逻辑实现代码可以看得懂,那么我就觉得你可以实现一个简单的爬虫了。前公司一直有写业务的同学问我如何写爬虫,甚至有工作四年的同学来问,我...原创 2019-06-30 17:51:11 · 7474 阅读 · 4 评论