数据！数据！_川农《管理经济学(本科)》22年6月课程考核-CSDN博客

本文链接：https://blog.csdn.net/oba_gaga/article/details/51958550

我还是很看好大数据的发展前景的，倒不是因为有多么精良的集群架构，也不是因为这有多么高深的算法，而是这可以让数据发声，并解决很多实际问题（ps:并且现在有很多可以用数据解决的问题并没有得到很好的解决），解决一个又一个实际问题不就是大数据的魅力所在吗。真正对用户产生价值的并不是数据本身，也不是某一项技术，而是数据发出的”声音“，但毫无疑问，服务器和算法的性能越高，我们可以处理的数据规模也就越大。而随着数据量的增加我们能看到的问题的本质也就越清晰，我们离问题的解决方案也就越近。

在这次学习的过程中我渐渐的发现一个问题，就是数据的合法性，而我们可以在数据的产生和数据的处理阶段尽量提高数据的利用率。大数据之美就在于数据的全，所谓的全就是收集并处理用户产生的所有数据，不象以前一样，我们要检验某个产品的质量往往要随机取样，核心在于真正的随机，然而随着设备越来越先进，算法越来越优化，收集数据越来越方便我们要求收集并处理产品的全部信息，以得到更准确的结果。我们可能只需在某一生产环节安装上特定的传感器就可以收集到产品的全部信息，而且保证时效性。然而，不可避免的，在收集数据的过程中会产生很多不合法的数据，我就在考虑，除去机器故障之外，我们这些写代码的可不可以优化一下算法，也许就只需要加个if,else就可以处理异常信息使其尽量合法化（当然实际问题可能更复杂），从而提高数据的质量。有些情况下，我们能收集到的数据本来就是有限的，或者每一条数据都很有价值都可能影响到问题的核心，这时候数据的合法性就得到了很好的体现。举个例子，现在比较普遍的淘宝刷单,刷好评或者雇水军刷差评，我们要想解决或者缓解这一现象，必定要收集尽可能多的用户产生的消费信息，因为现在都需要身份证申请账户，一个个用户在我们眼里就是一行行数据，所以我们要想确定某个ID的身份信息是很方便的。我们可以根据某个身份证ID在各个购物网站是否产生过非正常消费行为来判断这个ID的诚信值，从而对他在某网店产生的消费记录和他对该网店的评价进行处理。比如通过某ID是否在物流信息显示商品未到达目的地，或者未签收就提前确认付款来大致判断他是否在刷单，这时候可能10条这样的时间相似的消费信息就可以大致判断他在刷单，而一条这样的消费记录可能没有什么影响（难免有什么意外），而我们都知道，大数据丢失上万条数据甚至更多的数据都是很平常的事，这样一个刷单的人就可能消失在我们眼前（当然要彻底解决这一问题可能需要建立一个可以对各种情况都能做出判断的数学模型，我们只需把数据丢进去就可以出来结果）。另一方面，我们不仅可以从数据对的生产环节来提高数据的可用率，也可以从处理数据的环节提高数据的利用率，我们只需多分析一下当某一条数据不合法的时候，我们要对其进行深一层的分析，判断哪些数据还是可用的，挑挑拣拣还是有价值的，不要直接扔掉。

再谈谈广告，我们是否可以让广告更好的服务用户而不是打扰用户，如何能让有需求的用户得到他想要的结果，而不是虚假信息，如何努力让每个人都能平等的获取有价值的信息。广告的价值在于传播，而传播的质量往往决定了广告的价格。传播的质量不仅仅是流量得多少（当然绝大部分是），也包含了传播时的场景，不仅广告内容很重要，场景同样重要。为什么春晚的广告那么贵。时间，事件，场景，内容。广告的价值提高了，价格自然会得到体现。

这一切都是建立在大数据的基础上，我们正常处于另一次工业革命之中，而数据就是驱动整个社会前进向智慧社会进步的新能源，而我们正可以利用这一点微薄的技能慢慢将其实现，作为祖国的未来，我们有理由想的更远大，即使我们做不来，但我坚信一定会有人能实现。

注：（总喜欢在结束的时候写点感想，也算是漫谈吧。这次暑期实训算是大数据刚刚入门，以后发展的道路还很长，要解决的问题还很多，也会更艰难，但我仍会坚持下去。其实坚持的背后一定有很多因素在支撑，无论是信仰，热爱还是利益，但坚持到最后会慢慢变成一种习惯，可能也会迷茫，也会停滞不前，但最终还是会回到正轨。）