马克斯(maxcms)4.0采集规则使用方法_小白入门——网络采集、网页数据采集、渗透到底是什么东东？...

最新推荐文章于 2023-09-29 17:25:46 发布

weixin_39980903

最新推荐文章于 2023-09-29 17:25:46 发布

阅读量521

点赞数

文章标签：马克斯(maxcms)4.0采集规则使用方法

一提起各种各样的采集，就有很多人开始脑袋大和糊涂了，熟悉网络的网友可能还好，能搞清楚之间的区别，对于不熟悉网络的网友，估计就是一脸懵逼。有些人会说，这不是很简单的问题么，这也需要问？很遗憾，现实中是这样的，大量不懂电脑的人还在各种懵逼中，所以简单写一个说明文。

告诉大家神马是：

1，网络采集

2，数据采集

3，网站采集

4，渗透单

5，撞库

6，XPATH

7，正则表达式

网络采集

顾名思义，就是通过互联网来采集数据。手段是通过网络，接下来问题来了，从哪里采集？用什么采集？输出什么东西出来？简单来说就是输入——处理——输出这么个流程。

数据来源，也就是输入部分：

公开型网站——58同城、美团网等网站，你可以看到大量的页面，每个网页上的文字和图片，都是可以采集的，当把这些文字汇总，就会变成一个表格，说俗了这就是数据。单独的一个页面上的文字并没有太实际的意义，但是当采集了大量网页，将里面的文字提取和汇总，就会变成有意义的数据。

比如：

——我想采集美团网北京地区全部商家的信息，信息包括商家名称、联系方式、地址、评价

——我想采集京东网全部咖啡商品的信息，信息包括商品名称、参数、评价

最后这些信息通过采集之后会形成一张庞大的表格，至于信息做什么用，那就是仁者见仁智者见智的事情了。例如，商品信息可以用来分析什么卖的好，店主下一步该如何进货。评价信息可以用来分析网友对什么好评，好评点是什么等等。

特殊的网页——很多网站是可以登录的，只有登录以后才能看到更多数据。这类的数据通常比较难采集，而且网站也会有一些反采集的措施。比如天眼查、企查查之类的网站，不登录，你只能看到几条企业信息，登陆以后才能看到更多，类似的还有阿里巴巴等。这里有一个概念，反采集，这个概念之后详细说一下。

总结一下，网络采集、数据采集、网页采集、网站采集，大体上来说，就是采集网页上的文字、图片或链接。也就是你上一个网站，看到的页面，你能看到的那些部分（也有一些是源代码里的，页面看不到。还有些是数据包里的）。

现在问题来了，小白最喜欢在我的淘宝店问我的问题是这样的：

“店主，能采集数据么？”

店主：可以，给我网址，我分析一下

“还要网址？给你关键词不行么？”

店主：…… （内心一万只草泥马跑过）

还有网友这么问：

“店主，我要采集所有医疗机构的电话”

店主：有网址列表么，从哪里采集？

“还要网址？不是泛采么？”

店主：…… （内心两万只草泥马跑过）

这里就是一个很简单的问题，第一，这个人不懂什么是网页，也不懂HTML之类的。第二，他也不懂网络公开类数据采集的流程。一个网络数据采集工作者的实际流程是这样的：

1，了解数据需求。比如：我要采集美团上所有餐饮商家的信息，又或者京东上所有咖啡商品的信息和评价。越明确和细致的采集需求越容易解决问题。最受不了的就是那种：我想要所有商家信息，我想要所有招聘企业的招聘信息…… 谷歌和百度都做不到全，去哪里给你采集全了去？搞笑呢，对于这种的需求，只能说：草泥马勒戈壁！

2，调研数据来源。有了需求了，就得研究去哪里采集，如果是明确的需求还好，美团商家信息，只要去美团官网就可以了，京东商品信息，去京东就好了。就怕不明确的需求，比如我想要一汽丰田汽车的新闻评论数据。那怎么办？如果这是淘宝客户，我就直接“出门右拐不送，拜拜了您呐”。但是对于舍得掏大米币的用户，或者是我的领导，我就会分析去什么网站，什么网页上有我想要的数据。所以，重点是一定要知道什么网站、什么网页有我想要的数据。然后锁定采集范围和预估数据量。

3，确定使用什么工具、软件、代码来采集。采集网页上的数据，可以用到多种方式，工具、软件等就是枪，代码和采集规则就是子弹。用不同的枪和子弹的组合对付不同的网站自然效果就可能截然不同。工具常见的有八爪鱼采集器、火车头采集器、集搜客采集器等，采集平台有神箭手等，采集代码指的是程序猿通过编程实现的采集，也就是通常所说的爬虫，很多语言都可以写爬虫，常见的有Python、PHP、JAVA等。他们的优劣各有千秋，简单来说就是上手难度的问题，工具 < 平台 < 爬虫代码。

4，确定如何输出采集到的数据。采集到的数据可能是几百上千，也可能是千万级或者亿万级的。所谓大数据其实就是这么来的，对于高手来说，上亿都不好意思打招呼，得用存储空间来说，要不然都觉得丢人。所以面对真正搞大数据的人千万别很装逼的说我现在数据上千万，那就是啪啪啪抽自己的脸，最次也得很不好意思的说：抱歉，大神，我现在数据量只有100GB，和您的10PB实在没法比…… 这么大量的数据怎么办？如果只有几万条数据，一般excel表格对付对付也就哦了，但是如果面对几千万的数据，怎么也得搞个数据库才能处理的过来。对于GB级别的数据，就得用Hadoop、Spark、Redis等分布式存储和处理技术的方法才能做到较好的管理和计算。所以确定对方使用excel还是数据库很重要，决定了提交给对方的数据格式。

以上说的都是公开类信息采集，既然叫公开，就是什么人都可以看到和访问的。那些一般人无法访问的数据，如果想采集，那就大错特错了，因为那就不叫采集了，这就变成黑客了……所以通常含义的网络数据采集，都是采集公开网页的公开信息！那么来说点别的，如果某个QQ群里有人和你这么说：

接渗透单！要的快来！——他的意思是这样的，他是黑客，可以破解网站后台用户名和密码，或者能破解数据库权限等等来获取数据，而且是最原始的数据。这部分我就不多说了，我不懂。

黑客渗透攻击是指黑客针对特定目标实施的多方位的攻击。这种攻击方式具有很强的针对性，黑客可以花很长的时间对已经确定的目标进行信息的搜集和整理，并结合一切可以利用的攻击手段对目标实施攻击。黑客渗透攻击的目的相当明确，就是入侵并盗取目标环境中的敏感数据信息，如敏感数据、敏感文件等。

有撞库好的数据，谁要！——他的意思是，他可能通过不知道什么手段，搞到了用户名和密码，然后将不同网站之间的库（也就是用户账户）比对，登录测试等方法。得出了一些实际可用的用户账户。之前网易邮箱账户信息大规模泄露之后，很多人就用这个方法得到了用户苹果手机账户的信息和资料。

其他还有一些说法，我这里不过多阐述，这些东西并不是该摆在明面上的东西。还有别问我做不做这些，我很明确的告诉你我只是知道这些，我自己并不会，没那么高技术。

说了很多，现在说重点：搞清楚从什么网站的什么网页可以采集到你想要的数据，再说用什么来采集等等的后话。

Jay的技术交流博客 - 洞悉商业和技术的结合，挖掘数据的价值与潜力！www.bizworld.com.cn

weixin_39980903

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
马克斯(maxcms)4.0采集规则使用方法_小白入门——网络采集、网页数据采集、渗透到底是什么东东？...

一提起各种各样的采集，就有很多人开始脑袋大和糊涂了，熟悉网络的网友可能还好，能搞清楚之间的区别，对于不熟悉网络的网友，估计就是一脸懵逼。有些人会说，这不是很简单的问题么，这也需要问？很遗憾，现实中是这样的，大量不懂电脑的人还在各种懵逼中，所以简单写一个说明文。告诉大家神马是：1，网络采集2，数据采集3，网站采集4，渗透单5，撞库6，XPATH7，正则表达式网络采集顾名思义，就是通过互联网来采集数据...
复制链接

扫一扫

马克斯(maxcms)4.0采集规则使用方法_小白入门——网络采集、网页数据采集、渗透到底是什么东东？...

“相关推荐”对你有帮助么？