大数据
shiter
CSDN博客专家,人工智能与大数据领域优秀创作者,累计近500W人次访问。 熟悉自然语言处理(NLP)、大数据(Spark 、Elasticsearch)、数据分析(Scala,Python),计算机视觉(OpenCV、立体匹配)等领域的研发工作。世界500强,高级算法工程师, 曾参与并负责国家级大数据项目,负责大健康平台相关开发与管理工作,负责金融行业AI与大数据平台产品设计、开发与落地。编程不仅仅是技术,还是艺术!talk is cheap,show me the code!
展开
-
大数据处理的一些总结和应用(有关舆情监控)
说到大数据处理可能大家都不会陌生,这是近年来非常火热的话题,各行各业都想借助大数据为自己助力,有了这个工具,就好像在飞机上看农田一般清晰,一目了然,也也就是业内人士常说的大数据提供了一个------上帝视角大数据的概念:1、指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理的时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的咨询。2、维克托·迈尔-原创 2016-04-28 10:03:41 · 9352 阅读 · 0 评论 -
intel-hadoop/HiBench流程分析----以贝叶斯算法为例
1.HiBench算法简介Hibench 包含9个典型的hadoop负载(micro benchmarks,hdfs benchmarks,web search bench marks,machine learning benchmarks和data analytics benchmarks)具体参考CDH集群安装&测试总结:第三节内容micro benchmarks Sort:使用hadoop原创 2016-10-23 19:36:11 · 4657 阅读 · 0 评论 -
CDH 5.x 集群安装及卸载
上次写了CDH安装测试总结,由于那个博客篇幅略长, 但是主要集中在第二章,所以单独把CDH安装、卸载这块的内容拉出来在一篇记录一下。一.搭建远程yum源1.启动http服务: service httpd start2.挂载镜像文件rhel6.6.iso到/var/www/html下的任意文件夹 mount -o loop /RHEL-6.6Server.iso /var/www/html/原创 2016-11-12 19:28:04 · 3946 阅读 · 0 评论 -
短文本分析----基于python的TF-IDF特征词标签自动化提取
绪论最近做课题,需要分析短文本的标签,在短时间内学习了自然语言处理,社会标签推荐等非常时髦的技术。我们的需求非常类似于从大量短文本中获取关键词(融合社会标签和时间属性)进行用户画像。这一切的基础就是特征词提取技术了,本文主要围绕关键词提取这个主题进行介绍(英文)。不同版本python混用(官方用法)Python2 和python3 是一个神一般的存在,如何让他们共存呢,直到我用了pycharm我才知原创 2016-11-23 22:29:26 · 14272 阅读 · 0 评论 -
《读书报告 – Elasticsearch入门 》----Part II 深入搜索(1)
Part II 深入搜索搜索不仅仅是全文本搜索:数据的很大部分是结构化的值例如日期、数字。这部分开始解释怎样以一种高效地方式结合结构化搜索和全文本搜索。第十二章 结构化搜索结构化搜索_ 是指查询包含内部结构的数据。日期,时间,和数字都是结构化的:它们有明确的格式给你执行逻辑操作。一般包括比较数字或日期的范围,或确定两个值哪个大。文本也可以被结构化。一包蜡笔有不同的颜色:红色,绿色,蓝色。一原创 2017-02-25 00:32:24 · 1158 阅读 · 0 评论 -
《读书报告 – Elasticsearch入门 》----Part II 深入搜索(2)
第十三章 全文检索这一章开始介绍 全文检索 :怎样对全文字段(full-text fields)进行检索以找到相关度最高的文档。全文检索最重要的两个方面是:相关度(Relevance)根据文档与查询的相关程度对结果集进行排序的能力。相关度可以使用TF/IDF、地理位置相近程度、模糊相似度或其他算法计算。分析(Analysis)将一段文本转换为一组唯一的、标准化了的标记(token),用以(a)创原创 2017-02-25 00:36:49 · 1379 阅读 · 0 评论 -
《大数据时代》---- 读书笔记
作者:维克托·迈尔-舍恩伯格最近看了一本有历史的书《大数据时代》(拿研究成果来说三年前的已经是老成果了),作者对 我们这个大数据时代产生了很多颇有意思的洞见,为了保持原汁原味,我就直接原封不懂的把他们保留下来了,有空的话推荐大家去看看,顺便看看书中提到的电影《少数派报告》,和《点球成金》.部分摘抄难免断章取义,还请大家多参照原书。序一 拥抱“大数据时代”我们的行为、位置,甚至身体生理数据等每一点变化原创 2017-04-03 15:45:37 · 4660 阅读 · 2 评论 -
CDH集群安装&测试总结
0.绪论之前完全没有接触过大数据相关的东西,都是书上啊,媒体上各种吹嘘啊,我对大数据,集群啊,分布式计算等等概念真是高山仰止,充满了仰望之情,觉得这些东西是这样的:当我搭建的过程中,发现这些东西是这样的:对于初学者来说,我认为缺点如下:1.需要控制,配置的东西太多,并且配置对应并不是很清晰(以后优化集群是否会有很高含金量?)2.整个集群,我觉的从硬件到软件整体来说还是稳定性有待提高,尤其CDH原创 2016-10-07 01:44:06 · 12569 阅读 · 0 评论 -
大数据ETL实践探索(4)---- 搜索神器Elastic search
3.本地文件导入aws elastic search修改访问策略,设置本地电脑的公网ip,这个经常会变化,每次使用时候需要设置一下安装anancotahttps://www.anaconda.com/download/初始化环境,win10下打开Anaconda Prompt 的命令行conda create -n elasticsearch python=3.6source a...原创 2018-12-09 01:33:06 · 2810 阅读 · 0 评论