马克斯(maxcms)4.0采集规则使用方法_小白入门——网络采集、网页数据采集、渗透到底是什么东东?...

24da5497c127616a86c54e8496e2237c.png

一提起各种各样的采集,就有很多人开始脑袋大和糊涂了,熟悉网络的网友可能还好,能搞清楚之间的区别,对于不熟悉网络的网友,估计就是一脸懵逼。有些人会说,这不是很简单的问题么,这也需要问?很遗憾,现实中是这样的,大量不懂电脑的人还在各种懵逼中,所以简单写一个说明文。

告诉大家神马是:

1,网络采集

2,数据采集

3,网站采集

4,渗透单

5,撞库

6,XPATH

7,正则表达式

网络采集

顾名思义,就是通过互联网来采集数据。手段是通过网络,接下来问题来了,从哪里采集?用什么采集?输出什么东西出来?简单来说就是 输入——处理——输出这么个流程。

数据来源,也就是输入部分:

  • 公开型网站——58同城、美团网等网站,你可以看到大量的页面,每个网页上的文字和图片,都是可以采集的,当把这些文字汇总,就会变成一个表格,说俗了这就是数据。单独的一个页面上的文字并没有太实际的意义,但是当采集了大量网页,将里面的文字提取和汇总,就会变成有意义的数据。

比如:

——我想采集美团网北京地区全部商家的信息,信息包括商家名称、联系方式、地址、评价

——我想采集京东网全部咖啡商品的信息,信息包括商品名称、参数、评价

最后这些信息通过采集之后会形成一张庞大的表格,至于信息做什么用,那就是仁者见仁智者见智的事情了。例如,商品信息可以用来分析什么卖的好,店主下一步该如何进货。评价信息可以用来分析网友对什么好评,好评点是什么等等。

  • 特殊的网页——很多网站是可以登录的,只有登录以后才能看到更多数据。这类的数据通常比较难采集,而且网站也会有一些反采集的措施。比如天眼查、企查查之类的网站,不登录,你只能看到几条企业信息,登陆以后才能看到更多,类似的还有阿里巴巴等。这里有一个概念,反采集,这个概念之后详细说一下。

总结一下,网络采集、数据采集、网页采集、网站采集,大体上来说,就是采集网页上的文字、图片或链接。也就是你上一个网站,看到的页面,你能看到的那些部分(也有一些是源代码里的,页面看不到。还有些是数据包里的)。

现在问题来了,小白最喜欢在我的淘宝店问我的问题是这样的:

“店主,能采集数据么?”

店主:可以,给我网址,我分析一下

“还要网址?给你关键词不行么?”

店主:…… (内心一万只草泥马跑过)

还有网友这么问:

“店主,我要采集所有医疗机构的电话”

店主:有网址列表么,从哪里采集?

“还要网址?不是泛采么?”

店主:…… (内心两万只草泥马跑过)

这里就是一个很简单的问题,第一,这个人不懂什么是网页,也不懂HTML之类的。第二,他也不懂网络公开类数据采集的流程。一个网络数据采集工作者的实际流程是这样的:

1,了解数据需求。比如:我要采集美团上所有餐饮商家的信息,又或者京东上所有咖啡商品的信息和评价。越明确和细致的采集需求越容易解决问题。最受不了的就是那种:我想要所有商家信息,我想要所有招聘企业的招聘信息…… 谷歌和百度都做不到全,去哪里给你采集全了去?搞笑呢,对于这种的需求,只能说:草泥马勒戈壁!

2,调研数据来源。有了需求了,就得研究去哪里采集,如果是明确的需求还好,美团商家信息,只要去美团官网就可以了,京东商品信息,去京东就好了。就怕不明确的需求,比如我想要一汽丰田汽车的新闻评论数据。那怎么办?如果这是淘宝客户,我就直接“出门右拐不送,拜拜了您呐”。但是对于舍得掏大米币的用户,或者是我的领导,我就会分析去什么网站,什么网页上有我想要的数据。所以,重点是一定要知道什么网站、什么网页有我想要的数据。然后锁定采集范围和预估数据量。

3,确定使用什么工具、软件、代码来采集。采集网页上的数据,可以用到多种方式,工具、软件等就是枪,代码和采集规则就是子弹。用不同的枪和子弹的组合对付不同的网站自然效果就可能截然不同。工具常见的有八爪鱼采集器、火车头采集器、集搜客采集器等,采集平台有神箭手等,采集代码指的是程序猿通过编程实现的采集,也就是通常所说的爬虫,很多语言都可以写爬虫,常见的有Python、PHP、JAVA等。他们的优劣各有千秋,简单来说就是上手难度的问题,工具 < 平台 < 爬虫代码。

4,确定如何输出采集到的数据。采集到的数据可能是几百上千,也可能是千万级或者亿万级的。所谓大数据其实就是这么来的,对于高手来说,上亿都不好意思打招呼,得用存储空间来说,要不然都觉得丢人。所以面对真正搞大数据的人千万别很装逼的说我现在数据上千万,那就是啪啪啪抽自己的脸,最次也得很不好意思的说:抱歉,大神,我现在数据量只有100GB,和您的10PB实在没法比…… 这么大量的数据怎么办?如果只有几万条数据,一般excel表格对付对付也就哦了,但是如果面对几千万的数据,怎么也得搞个数据库才能处理的过来。对于GB级别的数据,就得用Hadoop、Spark、Redis等分布式存储和处理技术的方法才能做到较好的管理和计算。所以确定对方使用excel还是数据库很重要,决定了提交给对方的数据格式。

以上说的都是公开类信息采集,既然叫公开,就是什么人都可以看到和访问的。那些一般人无法访问的数据,如果想采集,那就大错特错了,因为那就不叫采集了,这就变成黑客了……所以通常含义的网络数据采集,都是采集公开网页的公开信息!那么来说点别的,如果某个QQ群里有人和你这么说:

  • 接渗透单!要的快来!——他的意思是这样的,他是黑客,可以破解网站后台用户名和密码,或者能破解数据库权限等等来获取数据,而且是最原始的数据。这部分我就不多说了,我不懂。

黑客渗透攻击是指黑客针对特定目标实施的多方位的攻击。这种攻击方式具有很强的针对性,黑客可以花很长的时间对已经确定的目标进行信息的搜集和整理,并结合一切可以利用的攻击手段对目标实施攻击。黑客渗透攻击的目的相当明确,就是入侵并盗取目标环境中的敏感数据信息,如敏感数据、敏感文件等。

  • 有撞库好的数据,谁要!——他的意思是,他可能通过不知道什么手段,搞到了用户名和密码,然后将不同网站之间的库(也就是用户账户)比对,登录测试等方法。得出了一些实际可用的用户账户。之前网易邮箱账户信息大规模泄露之后,很多人就用这个方法得到了用户苹果手机账户的信息和资料。

其他还有一些说法,我这里不过多阐述,这些东西并不是该摆在明面上的东西。还有别问我做不做这些,我很明确的告诉你我只是知道这些,我自己并不会,没那么高技术。

说了很多,现在说重点:搞清楚从什么网站什么网页可以采集到你想要的数据,再说用什么来采集等等的后话。

Jay的技术交流博客 - 洞悉商业和技术的结合,挖掘数据的价值与潜力!​www.bizworld.com.cn
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值