linghujing
码龄7年
关注
提问 私信
  • 博客:84,693
    84,693
    总访问量
  • 44
    原创
  • 2,279,000
    排名
  • 17
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2018-06-30
博客简介:

qq_42580464的博客

查看详细资料
个人成就
  • 获得14次点赞
  • 内容获得5次评论
  • 获得86次收藏
创作历程
  • 45篇
    2018年
成就勋章
创作活动更多

2024 博客之星年度评选报名已开启

博主的专属年度盛宴,一年仅有一次!MAC mini、大疆无人机、华为手表等精美奖品等你来拿!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

BigData:值得了解的十大数据发展趋势

  当今,世界无时无刻不在发生着变化。对于技术领域而言,普遍存在的一个巨大变化就是为大数据(Big data)打开了大门,并应用大数据技相关技术来改善各行业的业务并促进经济的发展。目前,大数据的作用已经上升到一定程度,对于小型或大型公司而言,从所收集的数据中提取出有用的信息已被是非常宝贵的。此外,大数据帮助那些在使世界变得更美好的且负有重要责任的组织能够更好地完成工作。在早期,大数...
原创
发布博客 2018.09.25 ·
489 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

TalkingData林逸飞:以数据智能探索业务突破 企业需正视数字化三大短板

      在9月召开的以“突破”为主题的T11 2018暨TalkingData数据智能峰会上,TalkingData合伙人兼执行副总裁林逸飞发表了“以数据智能探索业务突破”的精彩分享。他着重介绍了TalkingData(简称TD)在零售领域的探索,并总结提出了“D2D数字化转型方法论”,强调从业务“数字化”到目标结果“数字化”的核心思维,并以整合合作伙伴与TalkingData自研的全...
原创
发布博客 2018.09.25 ·
662 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

使用Scala开发Apache Kafka的TOP 20大好用实践

  本文作者是一位软件工程师,他对20位开发人员和数据科学家使用Apache Kafka的方式进行了最大限度得深入研究,最终将生产实践环节需要注意的问题总结为本文所列的20条建议。Apache Kafka是一个广受欢迎的分布式流媒体平台,New Relic、Uber以及Square等数千家公司都在使用它构建可扩展、高吞吐量、可靠的实时流媒体系统。例如,New Relic的Kafka...
原创
发布博客 2018.09.09 ·
490 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据可视化过程不完全指南

 数据集犹如世界历史状态的快照,能帮助我们捕捉不断变化的事物,而数据可视化则是将复杂数据以简单的形式展示给用户的良好手段(或媒介)。结合个人书中所学与实际工作所学,对数据可视化过程做了一些总结形成本文供各位看客"消遣"。个人以为数据可视化服务商业分析的经典过程可浓缩为:从业务与数据出发,经过数据分析与可视化形成报告,再跟踪业务调整回到业务,是个经典闭环。如果你想了解大数据的学习路线,想...
原创
发布博客 2018.09.08 ·
574 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

做大数据分析时,这几个技巧可以带来帮助

 现在数据已经成为了一些企业的“天”。近年来,近年来越来越多的公司已经意识到数据分析可以带来的价值,并且已经跳上了大数据旅行车。实际上,现在所有的一切都在被监控和测量,创造了大量的数据流,通常比公司可以处理的速度更快。问题是,根据定义,大数据很大,因此数据收集中的小差异或错误可能导致重大问题,错误信息和不准确的推论。对于大数据而言,以业务为中心的方式分析它的挑战是实现这一目标的唯一方法...
转载
发布博客 2018.09.08 ·
341 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

收藏 | 数据分析师最常用的10个机器学习算法!

 在机器学习领域,有种说法叫做“世上没有免费的午餐”,简而言之,它是指没有任何一种算法能在每个问题上都能有最好的效果,这个理论在监督学习方面体现得尤为重要。举个例子来说,你不能说神经网络永远比决策树好,反之亦然。模型运行被许多因素左右,例如数据集的大小和结构。因此,你应该根据你的问题尝试许多不同的算法,同时使用数据测试集来评估性能并选出最优项。当然,你尝试的算法必须和你的问题相切合...
原创
发布博客 2018.09.07 ·
286 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

如何使用HBase?大数据存储的两个实战场景

   为何使用HBaseHBase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,适用于结构化的存储,底层依赖于Hadoop的HDFS,利用HBase技术可在廉价PCServer上搭建起大规模结构化存储集群。因此HBase被广泛使用在大数据存储的解决方案中。HBase的优点:- 列可以动态增加,并且列为空就不存储数据,节省存储空间。 - Hbase自动切分数据,使...
原创
发布博客 2018.09.07 ·
471 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

入行数据科学,这些书一定要看

 近日,在GitHub上看到一张大而全的数据科学书单图,该图片分成七大领域,各自都有相对应的推荐书单,本文就为为各位推荐几本书,希望能够有助于你在大数据方面的学习。 大数据已经成为这个时代的标志,如何理解和运用大数据,也是我们这个时代的重中之重。因此选择一本合适的数据科学书至关重要。近日,在GitHub上看到一张大而全的数据科学书单图,该图片分成七大领域,各自都有相对应的推荐书...
原创
发布博客 2018.09.06 ·
1746 阅读 ·
0 点赞 ·
1 评论 ·
17 收藏

Kaggle放大招:简单几步实现海量数据分析及可视化

  近期,Kaggle发布了新的数据分析及可视化工具——Kaggle Kerneler bot,用户只需上传数据集,便可用Python为用户自动获取相关的深度数据分析结果。本文将带领读者体验一下这款便捷而又高效的工具。Kaggle Kerneler bot是一个自动生成的kernel,其中包含了演示如何读取数据以及分析工作的starter代码。用户可以进入任意一个已经发布的项目,点...
原创
发布博客 2018.08.11 ·
721 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

对Spark的那些【魔改】

  前言这两年做 streamingpro 时,不可避免的需要对Spark做大量的增强。就如同我之前吐槽的,Spark大量使用了new进行对象的创建,导致里面的实现基本没有办法进行替换。比如SparkEnv里有个属性叫closureSerializer,是专门做任务的序列化反序列化的,当然也负责对函数闭包的序列化反序列化。我们看看内部是怎么实现的: val seri...
原创
发布博客 2018.08.11 ·
831 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

数据分析或成释放制造业IoT价值的关键所在

 曾有专家预测,2020年对制造商来说是重要的一年。此前有数据机构预测马来西亚、越南和印度尼西亚将首次跻身制造业竞争力前 15 强的国家或地区行列,紧随中国、日本、印度、韩国和新加坡,而瑞典或瑞士这样的老牌西方国家将被挤出前 15 强。但要实现这一点,亚太地区的制造商需要抓住物联网带来的机遇。接下来,我们将共同了解一下IoT的业务价值,以及制造商如何从中获益。新兴的制造业预计将成为未来...
原创
发布博客 2018.08.11 ·
446 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

实时数据平台设计:解决从OLTP到OLAP实时流转缺失

  本文将会分上下两篇对一个重要且常见的大数据基础设施平台展开讨论,即“实时数据平台”。在上篇设计篇中,我们首先从两个维度介绍实时数据平台:从现代数仓架构角度看待实时数据平台,从典型数据处理角度看待实时数据处理;接着我们会探讨实时数据平台整体设计架构、对具体问题的考量以及解决思路。在下篇技术篇中,我们会进一步给出实时数据平台的技术选型和相关组件介绍,并探讨不同模式适用哪些应用场景。希望通过...
原创
发布博客 2018.08.04 ·
1579 阅读 ·
1 点赞 ·
0 评论 ·
3 收藏

对比解读五种主流大数据架构的数据分析能力

  数据分析工作虽然隐藏在业务系统背后,但是具有非常重要的作用,数据分析的结果对决策、对业务发展有着举足轻重的作用。随着大数据技术的发展,数据挖掘、数据探索等专有名词的曝光度越来越高,但是在类似于Hadoop系列的大数据分析系统大行其道之前,数据分析工作已经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统,对于BI系统来说,大概的架构图如下:...
原创
发布博客 2018.08.04 ·
6975 阅读 ·
1 点赞 ·
2 评论 ·
16 收藏

如何让你的数据直觉更敏锐

  AlphaGo打败李世乭、南京大学设立人工智能学院、百度无人车批量生产....每当人工智能和机器学习取得一些进展时,这些进展一定占据着各大媒体的头版头条。媒体对其有如此高的关注度,这意味着,现在科技界主流的兴趣领域是数据科学。对于有大局意识的人来说,这无疑是一个很好的创业机会和职业选择。要想抓住职业机会,你需要超强的“码力”和深入的专业知识。如果你想了解大数据的学习...
原创
发布博客 2018.08.01 ·
395 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

干货 :数据分析师的完整流程与知识结构体系

  【编者注】一个完整的数据分析流程,应该包括以下几个方面,建议收藏此图仔细阅读。完整的数据分析流程:业务建模。 经验分析。 数据准备。 数据处理。 数据分析与展现。 专业报告。 持续验证与跟踪。作为数据分析师,无论最初的职业定位方向是技术还是业务,最终发到一定阶段后都会承担数据管理的角色。因此,一个具有较高层次的数据分析师需要具备完整的知识结构。如果你想了解大数...
原创
发布博客 2018.08.01 ·
1244 阅读 ·
1 点赞 ·
0 评论 ·
8 收藏

图文教程,8步教你变身数据科学家

  导读:数据科学家是干什么的呢?哪些地方需要数据科学家?怎么样才能成为数据科学家?如果你正因为这些问题而犹豫要不要开始学习数据科学,那么我可以告诉你,成为数据科学家其实非常简单。从行业内部的蓬勃发展,到招聘会上HR们的大声宣传,我们都可以看出,数据科学家已经成为当下最炙手可热的职业之一。行业专业人士分析,未来几年数据科学岗位缺口将达到数百万。不仅仅是顶级科技公司需要数据科学家...
原创
发布博客 2018.08.01 ·
296 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

使用Pandas&NumPy进行数据清洗的6大常用方法

 数据科学家花了大量的时间清洗数据集,并将这些数据转换为他们可以处理的格式。事实上,很多数据科学家声称开始获取和清洗数据的工作量要占整个工作的80%。因此,如果你正巧也在这个领域中,或者计划进入这个领域,那么处理这些杂乱不规则数据是非常重要的,这些杂乱数据包括一些缺失值,不连续格式,错误记录,或者是没有意义的异常值。在这个教程中,我们将利用Python的 Pandas 和 Nump...
原创
发布博客 2018.07.28 ·
3949 阅读 ·
0 点赞 ·
0 评论 ·
11 收藏

使用Numpy和Opencv完成图像的基本数据分析(Part II)

 本文主要介绍使用Numpy和Opencv完成图像的基本数据分析后续部分,主要包含逻辑运算符操作、掩膜以及卫星图像数据分析等操作。在上一节中,主要是介绍了图像的基本知识以及OpenCV的基本操作,具体内容参见“使用Numpy和Opencv完成基本图像的数据分析(Part I)”。这部分内容是接着上一节的内容,主要介绍一些其它的操作。使用逻辑操作处理像素值可以使用逻辑运算符创建相同大...
原创
发布博客 2018.07.28 ·
617 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

使用Numpy和Opencv完成基本图像的数据分析(Part I)

  对于深度学习而言,很多任务都是与数字图形处理打交道。这类任务的数据集一般是由很多张图像构成,有时候,当原始图像不能直接送入模型中时,需要对其进行一定的预处理操作,这时候就不得不向大家介绍一个十分有用的软件包OpenCV,用它处理图像起来非常方便,OpenCV是一个基于BSD许可发行的跨平台计算机视觉库,它轻量且高效,是由一系列C函数和少量C++类构成,支持Python、MATLAB...
原创
发布博客 2018.07.28 ·
1003 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

让传达更有效!7个提升数据可视化的实用技巧

  今天的文章不长,但是干货还是不少的。对于数据可视化,我觉得在设计原理上其实是相通的,都是为了更好的传达信息。所以,同样的,关注核心信息,剔除信息杂质,就能使数据表信息的传达更有效。良好的数据可视化就是清晰,有效地传达信息,而不会分散用户注意力。 本文将会介绍一些小细节,帮助你做好数据可视化。1. 避免使用鲜艳的颜色明亮鲜艳的颜色就像是把所有的字母都大写想要强调一样,你的听众...
原创
发布博客 2018.07.26 ·
532 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏
加载更多