因为爬虫,我的老板进监狱了

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/Ly4wU5giY/article/details/78098881

2017.06.01号《中华人民共和国网络安全法》开始实施,这个安全法在爬虫的这一块宝地上掀一阵大风波,到处都在转这篇试图解读该规定的文章:「 你的爬虫会送老板进监狱吗? 」转载的地方太多,我也不知道原始这篇文章转载自哪里了。

总之,自那以后只要碰到爬虫,不管是爬个几万条房价信息用来做一些小研究,还是爬一些知乎的用户资料来做排名统计分析,总会有人说:哎呀,爬虫不是犯法嘛?你要当心啊。


我一脸诧异,连这种公开信息也不能抓取?但是我还是比较怂的,在担心会被送进监狱的情况下,我花了一个小时仔细的阅读研究了最新版的《中华人民共和国网络安全法

在仔细阅读了中华人民共和国网络安全法三遍之后,我并没有发现任何一条关于抓取网络公开信息的规定,难道我看错了文件?在再三确认读的确实是最新稿的前提下,我意识到认为网络爬虫犯法这一看法的误传原因可能是那篇疯传的文章导致的。


我仔细研究了这篇文章,文章提及以下两点;

01.

《网络安全法》以及最新刑事司法解释:

  • 未经授权爬取用户手机通讯录超过50条记录,老板进去最高可达3年;

  • 未经授权抓取用户淘宝交易记录超过500条的,老板进去最高可达3年未经授权读取用户运营商网站通话记录超过500条以上的,老板进去最高可达7年;

  • 未经授权读取用户公积金社保记录的超过50000条的,老板进去最高可达7年。



02.

司法解释里面提到以下集中类型的数据,无论是“非法提供”和“非法获取”都可以入刑:

  • 第一类:高度敏感信息,包括四种信息:行踪轨迹信息、通信内容、征信信息、财产信息。涉及高度敏感信息的违法活动,由于定罪门槛最低,因此严格限制在此四类,不做任何扩展;

  • 第二类:敏感信息,即住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息。与第一类相比较,《解释》对第二类信息的界定仍留有空间,意味着在司法实践中,仍有可能会出现目前所列举之外的第二类信息类型;

  • 第三类:其他个人信息。即上述第二、三类以外的个人信息。个人信息的类型是定罪量刑的重要依据。越敏感信息,达到定罪门槛的信息数量越少。


再三研究此篇文章之后,我发现这篇文章的几个问题点:

  • 认为爬虫就是用来抓取个人信息的,与信用基础数据相关的。

  • 住宿信息、通信信息、交易记录本来就是不公开的用户隐私,这通常是在App内的用手收全获取的信息,与爬虫无关。

  • 爬虫竟然能用来暴力破解密码?抱歉,这已经超过了爬虫的范畴了。


我想为写那篇文章以及不断转载那篇文章的作者和媒体重新解释一下爬虫的定义:网络爬虫(英语:web crawler),也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人。

网络爬虫抓取的数据有如下规则:

  • 数据完全公开

  • 不存在也无法做到越权访问爬取


结合之前的文章与最新的中华人民共和国网络安全法,我想说:至少到目前为止,都没有一条明确的规定禁止网络爬虫,是一些并不懂网络爬虫的媒体、个人作者凭着自己编故事的能力、总想搞个大新闻的想象力写了那么一篇误导了很多圈外人的文章观点。

所以那些担心为了研究而做的公开数据的网络爬虫的同学们,不用担心触犯法律,但是我还是想提醒几句关于网络爬虫道德的话:尽量放慢你的速度、尽量遵循robots、不要公开你的爬虫源码、不要分享你的爬虫数据。

展开阅读全文

想当老板的进来看

09-15

秀才做生意 踢爆管理经 rn慎言创新,多拍脑袋,灵活处事,笼络人心。 rn 童雪松 rn2003-8-25 11:16:17 rn rn以一个合理的成本把产品大量地做出来,而且质量、规格等都要稳定。需要的不再是技术创新,而是一些地球人都能想得到,却难全部做到的事情。 rnrn很偶然的机会,在书店里看到一本1998年出版的书,书名为《权力的4 8条法则》The 48 laws of power,书中指出了48条取得权力的方法。细细读来, 有很多方法的确让我茅塞顿开。rnrn我女儿在美国读初中,一次和她聊起这本书,我说:“你知道吗, 这本书上说要取得权力,就不能表现得比上司还优秀。不能太相信你的朋友,要学会利用你的敌人。让别人帮你做事,然后想办法把功劳归于自己。对别人表面上要做朋友,私下要做间谍!” rnrn女儿的回答让我愕然:“ 我们在学校里就是这样的!” 我马上又感到很放心, 一个十三岁的孩子已经懂得生存了。随后便是惊叹自己的变化, 前一段时间,有一位朋友嫌我太认真,不无揶揄地说:“你还真把自己当根葱啊!”话是有些刺耳,可却是让我这个读了多年书,尤其是还念到管理学博士的人认识到,应该调整一下自己心态了。rnrn从小学到博士, 一路优秀下来, 这样的人是幸运的。这样的“秀才”们一直是社会的宠儿,无论走到那里,只要考试成绩好,文章好,其他的一切都有人安排好了。学术界虽然也有斗争,但比起商场上, 着实是小巫见大巫。不过,某种意义上讲,这样的人也是悲惨的,他们生活在一维的世界里。对他们中的很多人来说,竞争只是意味着多在一流杂志上发表一些文章。偶尔出现几个狂妄的,想来商场上混一番,常常碰得头破血流。 rnrn从大学商学院里走出来,在企业中工作几年之后,远离了讲台和书本,扎扎实实于企业实务,我感觉自己有了很大的变化,对于自己习读多年且自认为颇有心得的管理理论有了新的认识。 趁着在美国度假的闲暇时光,把自己的伤疤揭一遍,竟也发现可以归结为以下几点。大家都是读书人, (虽然现在俗一点,但美国的博士证书还在,且不是“克莱登”大学发的,谁要说我现在已经不再是知识分子,定和他急!)如果在什么地方能给你提个醒, 这文章就算没白写。rnrn其实秀才们做生意不顺的原因,主要是自己不能尽快从几个误区中跳出来。 rnrnrn误区一:秀才们长期以来讲究创新,为之面红耳赤,为之汗牛充栋。其实作为一个企业管理者,你基本不需要创新。关键是要把那些 旧得不能再旧、人人都知道的道理做好。 rnrn在大学里,秀才们追求的是创新,或者说是标新立异。 其实我们都知道,真正的创新是很难的,大部分文章只是体现了作者想创新的主观愿望。如果你曾经为此内疚过,现在进了生意场就大可不必了。原因何在?文章里创新是没有风险的,写好了,一鸣惊人; 写不好, 别人也不会跟你记一辈子仇。在信息爆炸的今天,你根本不用自作多情,你的胡说八道一般在读者刷新因特网页面的一瞬间就被遗忘了。但进入生意场后就不一样了,随便创新,一不小心,银子就没了。因此,在EMBA的课堂上 老师说得口干舌燥,那些老板学生们又是点头,又是发言,但聪明的人回到公司后仍然我行我素。个别人想使几个刚学到的新招,多是哑巴吃黄莲,有口难言。知道找同道中人说会被讪笑,又不能把老师告上法庭,只好把苦水往肚子里咽。我在东南亚的一所大学里讲授EMBA多年,教的那几招其实自己都没试过,基本上属于道听途说,人云亦云。如果要追究责任,那些管理书籍的作者和出版社都脱不了干系。 我话说到这里,你要再去乱试,就别再怪我了。 rnrn前一段时间出了一本书叫《执行》,作者是企业界的前辈,说了一个大实话:“做企业贵在执行”。 绝大部分产业在技术的先进程度上都远远落后于大学和科研院所。(有些行业如半导体和生物科技可能不太一样。)对于企业来说,挑战不再是向世界证明自己能把一个样品做出来,而是要以一个合理的成本把产品大量地生产出来,而且质量、规格等都要稳定。要做到这一点,需要的不再是技术上的创新和突破,而是一些地球人都能想得到,却难全部做到的事情。我们可能需要对生产流程进行合理的安排,对员工及时培训,有效的管理原材料的采购和不许在车间里随地大小便。 一个秀才经理可能会发现这些工作缺乏智力上的挑战性,但做不到, 就是执行不力。对于那些在大学里看着生意场而蠢蠢欲动的秀才们,如果你们就此打住,便无须再读下去。一是因为对你来说,这下面已经都是废话了,读了浪费时间;二是我怕你越读越对我这人没好印象。我现如今正想混回学术界,不想今后万一碰上被你数落。 rnrn误区二:理性思维是学术研究的根本,但生意上的决策多属于拍脑袋。你如果事事都太认真, 一会贻误商机,二也会得罪人。 rnrn不要去相信管理案例和教课书上的那些往往让人拍案叫绝的故事,那都是马后炮!当事人往往是在事成之后才去总结成功的经验,然后发现世界上又多了一个伟人。所谓天时地利人和, 一个靠两万块钱起家的人把公司做到一百亿,如果他告诉你当时就看到了今天,那他不是在哄你,就是在哄他自己。他的成功在于自己不断地努力,这些努力大多是拍脑袋的结果,有些做了无用功。但当时机到来的时候,他恰好是准备得最好的一个。 rnrnrn在市场信息还不十分畅通的今天,许多决策只能靠拍脑袋。这是为什么企业找人,特别是经理级人才,一般多重经验,轻学历。 CEO的工资可以是MBA的100倍,那是因为他们的知识与经验是任何一个商学院都学不到的。这里有如何选择新产品的经验,如何打开一个新市场的经验,也有如何玩弄董事会、 华尔街和股东的经验,少一点都不行。这不是讽刺,我的的确确认为商学院应该调整自己的课程,培养一些实用的人才。MBA的工资毕竟是衡量一个学校好坏的标准之一。举一个例子, 一个企业迟迟不能交货,产品是一套大系统,客户大为光火,云本周再不交货, 就要取消订单。企业知道自己再需要两周就可以把系统所缺的一个板子做好,问题是现在该怎么办?答案在文章最后,不过你现在别看。去把这个问题出给你的学生和下属,然后把他们的答案和你的答案与文章最后的“标准”答案比较,如果没有“标准”答案好,我真的劝你别再读这篇文章了,回头是岸啊,切切! rnrn[待续] 论坛

很急的,老板催我,,,

08-14

老板给我一个.txt文档,上面有四列,分别是手机号、准考证号、姓名、日期rn我应该怎么把它写到excel 中,用最简单的方法rn130916373|6223581600880005885|丁连可 |10010088|1.0 |rn130916373|6223581600880006206|袁士钰 |10010088|1.0 |rn130916373|6223581600880006768|李金桥 |10010088|2.15|rn130916373|6223581600880006776|姜文刚 |10010088|1.0 |rn130916373|6223581600880006792|梁浩 |10010088|0.5 |rn130916373|6223581600880006800|梁成宇 |10010088|0.1 |rn130916373|6223581600880006818|李延侠 |10010088|1.46|rn130916373|6223581600880006826|张霞 |10010088|0.89|rn130916373|6223581600880006842|王炳华 |10010088|1.0 |rn130916373|6223581600880006867|马江 |10010088|1.0 |rn130916373|6223581600880006891|李信起 |10010088|1.0 | rn130916373|6223581600880007105|王俊玲 |10010088|5.06|rn130916373|6223581600880007170|刘登峰 |10010088|1.0 |rn130916373|6223581600880007188|刘瑜 |10010088|1.0 |rn130916373|6223581600880007196|刘洪卫 |10010088|0.0 |rn130916373|6223581600880007204|李齐发 |10010088|1.0 |rn130916373|6223581600880051277|于得水 |10010088|1.0 |rn130916373|6223581600880051293|王静 |10010088|1.0 |rn130916373|6223581600880051319|刘瑞亭 |10010088|1.0 |rn130916373|6223581600880051327|于万春 |10010088|2.08|rn130916373|6223581600880051335|黄洪德 |10010088|1.0 |rn130916373|6223581600880051343|田文英 |10010088|1.0 |rn130916373|6223581600880051350|黄景良 |10010088|1.0 |rn130916373|6223581600880051368|邵士梅 |10010088|1.0 |rn130916373|6223581600880051376|刘玉丽 |10010088|1.0 | 论坛

没有更多推荐了,返回首页