DIYPA（自爬） - 产品级别的智能云爬取系统简介

最新推荐文章于 2024-07-04 23:45:00 发布

weixin_34216107

最新推荐文章于 2024-07-04 23:45:00 发布

阅读量121

点赞数

文章标签：爬虫 python

原文链接：https://my.oschina.net/gavinzheng731/blog/810005

版权

2019独角兽企业重金招聘Python工程师标准>>>

问题

互联网发展到现在，信息不是缺乏，而是信息泛滥。互联网用户如今经常碰到的问题是：

面对海量数据，不知道于何时，到何处取得自己想要的信息

× 数据的多样性。比如音频，视频。

× 数据的量太大了

× 数据时效性。比如折扣，金融信息

× 数据太分散, 碎片化。原始数据需要后续处理

不知道如何如何将网页数据结构化，以利于后续分析和处理。

网页HTML数据不是结构化数据！！！

痛点

为了有效率的收集网页数据，爬虫技术应运而生。但是当前爬虫技术也是有弱点的

爬虫技术看起来高大上，不是普通人能掌握的
爬虫工程师的工资不错，反过来，请一个爬虫工程师是比较贵的哟

下面的信息来自于51job，2015年11月

爬虫后续维护工作量巨大：众所周知，网页是经常变化的

产品介绍

DIYPA是一款小而美的工具，大大降低爬虫工作的难度和强度，减轻维护工作量。实现人人可做爬虫工程师的理想

方案图

DIYPA创造性的将爬虫工作分为两阶段：标记和爬取。

标记阶段/工具

标记工具用Javascript开发而成。以浏览器插件和bookmarklet形式部署到用户的浏览器

采用内嵌式，几乎可以嵌入任何网页
以所见即所得的方式，让用户定义需要爬取网页信息的位置（PlaceHolder）
点击热点（Hotspot），智能猜测用户的意图
允许用户定义爬虫属性：比如爬取时间，频率，通知方式等等

爬取阶段/云爬虫阵列

使用Django+ python + AngularJS + Scrapy+ Selenim + DRF开发而成。用户可以

创建，编辑，删除爬虫定义
查看/处理爬取到的数据
数据可视化
查看/管理爬取精度

产品家族

标准版

适用于普通用户。可以应用于

商品比价
网上求租/出租房子
网上上招工

专业版

适用于有相应能力的用户。比如分析师，工程师，数据科学家等。可用来做

收集金融数据
商业行业分析
Vale at Risk (VaR) 计算
各种各样的桌面和移动App的二次开发

企业版

面向企业。主要处理AJAX。可应用于

互联网征信
舆情分析
网上追逃

特点场景

下图中黑色的圆圈 - 热点（Hotspot）点击可动态切换标记元素

下图中黄色 - 点亮（Highlight）表示用户当前标记的元素集

标记Redflagdeal (加拿大最大的折扣网站)

标记大众点评

管理定时任务

应用案例

北京一家众筹公司已经用DIYPA开发了一款热门投资指数的产品。

特点

笔者微信二维码

注：原创，转载请注明出处

转载于:https://my.oschina.net/gavinzheng731/blog/810005

weixin_34216107

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DIYPA（自爬） - 产品级别的智能云爬取系统简介

2019独角兽企业重金招聘Python工程师标准>>> ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。