(30 hackdays day 2) Diffbot – 问题来啦!(1)

挖掘机技术哪家强?严肃点,我们来认真讨论这个问题。
假设我们讨论的是哪家培训挖掘机技术最强。首先,我们得知道有哪些地方能够学到挖掘机技术。然后,我们要想个办法定义“强”。最后我们得能算出来结果。

挖掘机技术学校

要知道都有哪些学校教挖掘机,我能想到的就两个来源:技校的黄页,搜索结果。前者可能有专业的技校汇聚网站可以爬取到,后者可以用第三方的搜索服务获取。于是我Google了下“挖掘机技术培训学校列表”。发现前几条结果都是www.peixun360.com他家的,所以我决定先把这个网站的挖掘机学校列表爬下来。

Diffbot

Diffbot是一个帮助人们将网页数据转换为结构化信息(其实就是爬虫干的事儿)的在线服务。通过简单的点选网页上的信息,指定到对应的结构化信息。它就能帮你把一个网站的信息转换成一个结构化的API。换句话说就是一个普通用户也能爬京东,把某类产品的网页变成一个“excel”。

Diffbot的API基本都分为Automatic和Custom两种,前者不用做任何事儿,算法自动帮你提取信息,后者可以有更大的自由度。

Product API是Diffbot重要API之一,用处就是帮助你自动分析一个“产品”页面的信息。比如“潞城挖掘机精品班”(是的,我看到28913也惊了,但放心,后面不是连续的...)。扔给Diffbot以后就会分析出下面的信息。

是不是挺整齐的了?这还是我完全没有控制的情况自动提取的结构信息。下面我们来用下Custom API,也就是指哪打哪那个。

先创建一个Custom API的Rule。可以看到Diffbot提供的Product的基本信息已经有很多了,什么OFFER PRICE,REG. PRICE,SAVE AMT.,BRAND之类的。那我们来把品牌加上吧。

可以看到这里挑选一个域数据的方式很直观,鼠标选择一个Div,Diffbot就会帮你把它赋值过去。这里的小问题是它前端代码对中文的支持还有bug。但Save以后数据是正常的中文。当我们定制了一个新Field以后,这个自定义的Product的Rule就创建好了。这个Custom API也就能正常提取同类网页数据啦。
然后我就想试试Bulk API和Crawlbot。前者可以让你输入一系列的URL,比如几家挖掘机学校的详情页URL列表,后者可以爬取一个网站,从而对某些符合规则的网页调用Custom API。但...但...丫是收费API,而且...而且…我交不起的300刀一个月...所以…所以…不是我偷懒~

好啦,这就是一个帮助SB也能爬网页的产品啦~(我得想别的办法拿到挖掘机学校列表了...)明天见...

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值