大数据是女人！爬虫是男朋友！黑客是强奸犯，深度好文

最新推荐文章于 2024-08-15 09:54:11 发布

liujainq

最新推荐文章于 2024-08-15 09:54:11 发布

阅读量3.7k

点赞数

本文链接：https://blog.csdn.net/liujainq/article/details/105951172

版权

大数据是女人！爬虫是男朋友！黑客是强奸犯，深度好文

在黑科技、爬虫、大数据领域深度技术研发领域，爬虫和黑客使用的技术其实是一样的但是又有区别的，爬虫和黑客的区别在哪里呢？大数据、爬虫、黑客有什么关系呢？

爬虫和黑科技的区别：

黑客和爬虫最大的区别就是行为目的不同，黑客是干坏事，爬虫是干好事。因为黑客和爬虫使用的技术都是差不多，都是通过计算机网络技术进行对用户电脑、网站、服务器进行入侵然后获取数据信息。区别是黑客是非法入侵，爬虫是合法入侵。比如黑客通过破解网站后台验证码技术然后模拟登陆网站数据库，把数据库删掉或者直接修改人家数据库，这种是非法入侵，破坏性行为、违法行为。同样也是破解验证码技术，但是爬虫就不同了，比我需要获取某些政府网站的一些公开数据，但是每次都需要输入验证码很麻烦，为了提高数据分析的工作效率，爬虫技术也是通过绕过验证码技术去采集网站公开、开放的数据，不会获取隐私不公开的数据。如果把数据比喻女人，爬虫和黑客是男人，那么爬虫是男朋友，是在正当合法、名正言顺的情况下和女的发生了关系，然而黑客不同，黑客就是强奸犯了，因为女的不是自愿的，黑客是强制性，甚至用暴力来和女的发生关系。这个就是黑客和爬虫的本质不同地方，虽然采用类似的技术手段来获取数据，但是采取的技术行为和最终导致的后果性质是不同的。一个是违法需要承担法律后果，一个是国家支持鼓励的是合法的。不管是爬虫还是黑客技术都是一个工具而已，就像是菜刀一样，有人拿去切菜，有人拿去杀人，那菜刀是好还是坏呢，其实菜刀只是一个工具而已，好坏在于使用者的行为的结果

爬虫-谢天谢地您来了，好开心啊黑客- 恶魔，离我远一点！给我滚！

大数据和爬虫又有啥关系？

2012年国家都不断对数据进行开放，中央要求每个政府单位必须把你们能够开放的数据开放出来，主要是中国在大力发展大数据科技产业，也就是我们经常听到的各种所谓专家、教授口里经常喊的数字产业化，数字中国，数字经济、大数据、人工智能、区块链等各种时尚高端词汇。那大数据和爬虫有什么关系呢？以下从几个案例举例介绍：

人脸识别： 您做人工智能是需要大数据的，举个例子您想做一个自动识别人脸的人工智能机器。您首先需要根据人脸生物特征建立AI模型，然后需要几千万或者几十亿张人脸图片进行不断的训练这个模型，最后才得到精准的人脸识别AI。几十亿的人脸图片数据哪里来呢？公安局给你？不可能的！一张张去拍照？更不现实啦！那就是通过网络爬虫技术建立人脸图像库，比如我们可以通过爬虫技术对facebook、qq头像、微信头像等进行爬取，来实现建立十几亿的人脸图像库。
企业大数据：去年有个朋友让我通过爬虫技术帮他建立1亿的企业工商数据库，因为他需要做企业分析、企业画像，需要知道每个城市的新注册企业多少、科技创新企业多少、企业年报、企业人才招聘、企业竞品、企业的融资事件、上市事件等等企业全部60个纬度纬度的数据，然后分析企业的各种行为，最终做决策辅助使用。需要完成这个任务，其实我们就需要知道，国家工商局早早就把企业工商数据公示了，而且还做了一个全国企业信息公示系统，让大家都可以查询各个公司的数据。居然数据源已经解决了，当时我就在想，如果有人已经把这些数据都聚合在一起那就更好了，但是最后发现天眼查、企查查、企信宝其实已经帮我做了很多事情了。最后我花了1个星期时间用python写了一套企业工商大数据网络爬虫系统，快速爬取企业工商数据信息，并且用mysql建立标准的企业大数据库。
裁判文书大数据：自从国家中文裁判文书对外开放之后，经常很多有创新想法朋友找我帮忙，他们有些想做一个案件的判例分析系统，因为现在很多法官在判案的时候都是需要查阅各种历史类似案件，之前的判官都是怎么判的。然后做一些借鉴。现在有大数据好了，如果通过AI技术自动把案件文案扫描进去，然后通过裁判文书数据库进行深度分析匹配，马上出来类似的判例结果出来，并按案件相识度进行排序，最终形成一套法务判例AI智能系统。然后把这个系统提供给律师、法官、法院、税务所用。那么问题来了，需要实现这个第一步首先您需要有裁判文书大数据库，然后在数据库基础上建立一个案例分析AI模型，其中需要用到爬虫技术来解决裁判文书数据源获取和更新问题，然后需要用到文本分析技术、文本情感识别技术、文本扫描解读技术。我当时采用是一套国外的框架tensorFlow，这是一套由美国google brain研发出来的开源机器学习库，专门做深度学习、神经网络技术、模型训练框架。因为裁判文书爬虫需要解析算出它的DOCID值，然后通过多进程+多线程+cookie池技术来解决批量爬取的问题。
商标专利大数据：那么商标和专利和大数据又有什么关系？和爬虫又扯上什么关系呢？在中国聪明人其实是不少的。商标和专利这个应该是很老土的过期词语，但是往往创新只是改变一下我们的思维、或者根据环境变化进行改革一下即可。因为有了大数据，有了政府开放数据，有大数据深度挖掘技术，有了AI人智能，有了5G，那么之前我们采用的工具和模式都需要调整了。在从事AI和大数据路上还是遇到不少有创新和智慧的人，有一天有一个陌生好友加我，问我说可以帮他做一个商标专利大数据吗？我问他什么是商标专利大数据，他说就是监控商标网和专利网的实时更新数据，我只要有一套AI技术系统，可以实现获取最新申请的专利信息数据和商标数据，然后就可以知道哪些企业有申请专利、申请知识产权的需求，我问他：您怎么赢利呢？他说赢利方式太多了，比如2020年新型冠状病毒，我通过这个系统就可以知道哪些企业在申请关于生产疫苗的专利和商标，哪些企业在申请生产医疗物资的知识产权，那么这些企业都是科技创新企业，都可以拿到政府扶持资金，我可以把这个做成一个大数据平台专门服务于那种做知识产权企业和做国家财税补贴申请机构，那通过这个数据，很多投资机构也可以合作掌握哪些企业在生产未来具有前景的产品。关于专利和商标大数据还有一个更聪明的人也是私聊我，同样问题，问他怎么赢利，做这些数据做什么，他说比如我现在知道有大公司在申请一个商标叫“麦当劳”，那么我马上就申请一个叫“迈当老”谐音的商标，那么这个大公司的商标麦当老肯定会做大，品牌的，我的那个谐音的“迈当老”就值钱了，就可以卖个几十万都行的。我问他这样靠近名字算算侵权吗？他说国家规定的只要是同一年时间申请的，之后使用都不算是侵权。最后也是通过建立一套大数据AI爬虫系统帮助他实现了这个功能。最后不知道他运营如何了。欢迎对大数据挖掘和AI感兴趣朋友交流我qq：2779571288
税务大数据： 因为国家税务局对对开放，可以在网上查询到哪些企业欠税，哪些企业税务异常了。那么这些东西又有什么用呢？怎么又和大数据产业牵连上了吗，不就是查询一下哪些企业欠税而已嘛。这个很多人就不懂了，或者看不透了，这个需要用大数据产业化思维，在大数据时代，每个数据都是财富，数据就价值，您想不到说明的还没有发现奥秘，如果您想到了估计也许就过时了，就像电商时代一样。税务大数据主要是给做财税、代理记账、税务局用的。做财务的公司每天都想知道哪些企业欠税了、出现税务异常了，您公司出现税务异常肯定是需要找财务公入帮忙处理，这个就是商业核心点所在，那么建立完这个税务大数据系统，就可以解决所有财税公司、代理记账公司的客源问题。那问题又来来，数据都是从税务局出来的，税务局要这个数据干什么呢？现在国家特别加强“互联网+监管，互联网+环境，互联网+治安”，数据源虽然是税务局出来的，但是用原始数据进行提炼再去结合其他数据就是爆发出各种火花了。税务数据结合+企业工商信息数据形成一个闭环税务监管大数据系统。欢迎对大数据挖掘和AI感兴趣朋友交流我qq：2779571288

更多的大数据大家发展和未来，大家可以网上搜索“xx市政府开放数据平台”，就可以看到我们国家几乎每个市都建立了一个政府大数据共享开放的平台。每个市都有，如果您市没有这个政府开发数据平台，那就是您这个市没有跟上节奏。政府在努力的不断开放数据，就是大力发展大数据产业、激发传统企业转型。实现数字化中国、数字经济化、数字产业化。大数据。

最后推荐目前流行的几个大数据深度学习、神经网络技术框架给您，也是我经常使用做大数据分析、深度爬虫的框架。

1 CAff

2 Tensorflow

3 Pytorch

4 Theano

5 Keras

6 MxNet

7 Chainer

这些框架各有优势，根据自己的喜好来，我个人是比较喜欢使用

Tensorflow、 CAff、 Keras。欢迎对大数据挖掘和AI感兴趣朋友交流我qq：2779571288