- 博客(23)
- 收藏
- 关注
原创 【30天从入门到放弃】我的机器学习之路 4
周末注册了kaggle,为了先熟悉一下这个平台。今天用了大半天的时间刷完了一个新手副本任务--泰坦尼克号存活率预测(这个应该算是kaggle上的“hello world”级别的项目了,借这个项目正好复习一下整个流程,关于上一期时序预测的题,咱们暂且往后排。)一、赛题背景 1912年4月15日,泰坦尼克号在处女航中撞上冰山后沉没,造成了2224名乘客和船员中的1502人遇难,即32%的存活率。 海难导致这么多人丧生的原因之一是没有足够的救生艇容纳乘客和船员。 虽然在沉船事..
2021-01-11 18:46:12 276
原创 笔记|增长为王,阿里大佬分享的流量方法论
全文2500字,预计阅读时长5min上周在虎嗅上看到了一篇关于增长的文章,讲的是作者16年来,做增长的流量方法论。但是由于文章篇幅较长,下面是我对该文进行的一个梳理,当然,我也会把原文链接附在笔记后面。以下为笔记内容:流量方法论的两个关键词:「流量」和「搜索引擎」一、流量无论是实体店的销售增长、还是互联网产品的用户增长。我们谈论任何一种增长,流量都是最底...
2019-12-22 16:56:20 496
原创 用户增长|当我们信仰【增长黑客】的时候,我们在信仰什么?
本文共计2571字,预计阅读时长5min增长黑客原本是互联网行业中的一个概念,它是由硅谷用户增长专家肖恩·埃利斯在2010年提出。用一句话来形容:它就是数据专家、设计能手,还有营销人员的结合体。增长黑客的理论后来逐渐演变成了一套精准的运营体系,也就是通过不断测试用户的反应以及数据的分析挖掘,来实现用户和利润增长的运营体系。一、如何从想法到变现基本所有成功的商业模式,从一个...
2019-07-14 20:22:28 269
原创 数据挖掘干货总结(六)--推荐算法之CF
本文共计1245字,预计阅读时长八分钟推荐算法(二)--CF算法一、推荐的本质推荐分为非个性化和个性化,非个性化推荐比如各类榜单,而本系列主要介绍个性化推荐,即:在合适的场景,合适的时机,通过合适的渠道,把合适的内容,推荐给合适的用户二、推荐算法的种类1.基于内容Content Based2.基于协同Collaboration Filt...
2018-05-02 22:46:15 6957
原创 数据挖掘干货总结(五)--推荐算法之CB
本文共计927字,预计阅读时长六分钟推荐算法(一)--CB算法 一、推荐的本质推荐分为非个性化和个性化,非个性化推荐比如各类榜单,而本系列主要介绍个性化推荐,即:在合适的场景,合适的时机,通过合适的渠道,把合适的内容,推荐给合适的用户 二、推荐算法的种类1. 基于内容Content Based2. 基于协同Collaboration Filtering– User Based CF– Item B...
2018-05-02 22:43:11 923
原创 大数据干货系列(十一)--Spark Streaming总结
本文共计902字,预计阅读时长六分钟Spark-Streaming总结一、本质Spark Streaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理二、Spark Streaming和Spark Core2.1 逻辑关系:2.2 物理关系:1) DStream:SparkStreaming提供...
2018-05-02 22:36:37 558
原创 大数据干货系列(十)--Kafka总结
本文共计2022字,预计阅读时长十分钟Kafka总结 一、本质一种分布式的、基于发布/订阅的消息系统 二、Kafka的特点– 消息持久化:通过O(1)的磁盘数据结构提供数据的持久化– 高吞吐量:每秒百万级的消息读写– 分布式:扩展能力强– 多客户端支持:java、php、python、c++ ……
2018-03-12 13:42:36 593
原创 大数据干货系列(九)--HBase总结
本文共计1058字,预计阅读时长六分钟HBase总结 一、本质HBase是一个开源的非关系型分布式数据库(NoSQL),运行于HDFS文件系统之上,因此可以容错地存储海量稀疏的数据。 二、HBase解决了什么问题对比传统数据库的优势:– 高可靠的海量数据存储– 高并发读写– 面向列,快速随机访问
2018-03-12 13:40:24 573
原创 大数据干货系列(八)--Flume总结
本文共计1365字,预计阅读时长六分钟Flume总结 一、本质Flume是一个分布式、可信任的弹性系统,用于高效收集、汇聚和移动大规模日志信息,从多种不同的数据源到一个集中的数据存储中心二、Flume解决了什么问题• 支持在日志系统中定制各类数据发送方,用于收集数据• Flume提供对数据进行简单处理,并写道各种数据接收方
2018-03-12 13:37:36 472
原创 大数据干货系列(七)--Storm总结
大数据干货系列(七)--Storm总结2017-12-29 Shuan Xi 爱上终身学习本文共计1661字,预计阅读时长十分钟Storm总结 一、本质Storm 是一个开源分布式实时计算系统,它可以实时可靠地处理流数据。 二、Storm解决了什么问题1.实时数据分析需求– 实时报表动态展现– 数据流量波动状态– 反馈系统2.时效性– 秒级处理完成数据3.增量式处理– 数据来一条,处理一条 三、H...
2018-03-12 13:33:10 241
原创 Spark中RDD、DataFrame和DataSet的区别 ?
今天的三个问题是:1.Spark1.0和2.0有什么区别?(真心不想重装2.0,但是没有办法啊)2.Spark RDD、DataFrame和DataSet的区别 ?(往期第33题写过一次,但没有解释清楚)3.如何选择RDD还是DataFrame/DataSet?话不多说,直接上干货,最后附上了原文参考文献,觉得有翻译不到位的地方可以看看原文,欢迎各位指出更正。首先,Spark RDD、DataFr...
2018-01-13 13:16:16 20554 6
原创 SQL总结-思维导图
以上.听说,爱点赞的人运气都不会太差哦如果有任何意见和建议,也欢迎在下方留言~ 关注这个公众号,定期会有大数据学习的干货推送给你哦~只分享干货!只分享干货!只分享干货!点击这里查看往期精彩内容:每日三问(0101)每日三问(0102)每日三问(
2018-01-06 11:55:41 3321 1
原创 数据挖掘干货总结(三)--分类算法
分类算法一、本质给定一个对象X,将其划分到预定义好的某一个类别Yi中的算法二、分类算法用来解决什么问题人群分类,新闻分类,query分类,商品分类,网页分类,垃圾邮件过滤,网页排序三、有哪些分类算法(2~6为扩展)1. Naive Bayesian Mode朴素贝叶斯模型最简单的监督学习分类器,这个分类器模型是建立在每一个类别的特征向量服从正态分布的...
2018-01-05 12:24:02 23427 2
原创 数据挖掘干货总结(二)--NLP进阶-详解Jieba分词工具
NLP进阶-详解Jieba分词工具一、Jieba分词工具1. 三种模式• 精确模式:将句子最精确的分开,适合文本分析• 全模式:句子中所有可以成词的词语都扫描出来,速度快,不能解决歧义• 搜索引擎模式:在精确模式基础上,对长词再次切分,提高召回 2.实现的算法• 基于Trie树结构实现高效的词图扫描,生成句子中汉字所有
2018-01-04 11:55:57 633
原创 数据挖掘干货总结(一)--NLP基础
本文共计1463字,预计阅读时长八分钟NLP-基础和中文分词 一、本质NLP (Natural Language Processing) 自然语言处理是一门研究计算机处理人类语言的技术 二、NLP用来解决什么问题语音合成(Speech synthesis)语音识别(Speech recognition)
2018-01-03 14:55:43 2326
原创 大数据干货系列(七)--Storm总结
Storm总结 一、本质Storm 是一个开源分布式实时计算系统,它可以实时可靠地处理流数据。 二、Storm解决了什么问题1.实时数据分析需求– 实时报表动态展现– 数据流量波动状态– 反馈系统2.时效性– 秒级处理完成数据3.增量式处理– 数据来一条,处理一条 三、Hadoop vs Storm1.Storm任务没有结束,Hadoop任务执行完结束2.Storm延时更低,得益于网络直传、内存计
2018-01-02 15:26:02 619
原创 大数据干货系列(六)--Spark总结
Spark总结一、本质 Spark是一个分布式的计算框架,是下一代的MapReduce,扩展了MR的数据处理流程 二、mapreduce有什么问题1.调度慢,启动map、reduce太耗时2.计算慢,每一步都要保存中间结果落磁盘3.API抽象简单,只有map和reduce两个原语4.缺乏作业流描述,一项任务需要多轮mr 三、spark解决了什么问题1.最大化利用内存cache2.中间结果放内存,加
2018-01-02 15:24:33 817
原创 大数据干货系列(五)--Hive总结
Hive总结 一、本质 Hive基于一个统一的查询分析层,通过SQL语句的方式对HDFS上的数据进行查询、统计和分析。 二、四大特点**• Hive本身不存储数据,它完全依赖HDFS和MapReduce,具有可扩展的存储能力和计算能力• Hive的内容是读多写少,不支持对数据的改写和删除• Hive中没有定义专门的数据格式,由用户指定• Hive是一个SQL解析引擎,将SQL语句转译成MR
2018-01-02 15:22:09 1073
原创 大数据干货系列(四)--ZooKeeper总结
ZooKeeper总结 一、本质ZooKeeper 是一个为分布式应用提供一致性服务的软件。 二、ZooKeeper解决了什么问题1. 分布式系统的一致性问题2. 分布式系统的容灾容错3. 分布式系统的执行顺序问题4. 分布式系统的事务性问题 三、ZooKeeper的系统架构1. 领导者
2017-12-29 23:26:49 801
原创 大数据干货系列(三)-- Hadoop2.0总结
Hadoop2.0总结 一、本质Hadoop2.0,相比于Hadoop1.0,最明显的区别是YARN系统和HDFS2.0的新特性二、Yarn解决了什么问题1. 降低运维成本和数据共享成本2. 减小了 JobTracker(也就是现在的 RM)的负担3. 使得多种计算框架可以运行在一个集群中4. 资源表示成内存量,解
2017-12-29 23:25:32 410
原创 大数据干货系列(二)--HDFS1.0
一、本质HDFS(Hadoop Distributed File System)是一种适合运行在通用硬件上的分布式文件系统 二、HDFS解决了什么问题1.海量数据存储和吞吐2.write-once-read-many存取模式(无数据一致性问题)3.高度容错4.处理非结构化数据 三、系统架构1. NameNode
2017-12-29 23:22:10 452
原创 大数据干货系列(一)--MapReduce总结
MapReduce总结 一、本质MapReduce是一个基于分治思想,用于处理海量数据的分布式计算框架。 二、mapreduce解决了什么问题1.数据分布式存储-HDFS2.作业调度3.容错4.机器间通信等复杂问题 三、分布式计算vs单机计算 四、MapReduce执行流程
2017-12-28 09:20:27 759
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人