大数据
文章平均质量分 88
adnb34g
这个作者很懒,什么都没留下…
展开
-
hadoop行业技术创新解决方案
如今有很多公司都在努力挖掘他们拥有的大量数据,包括结构化、非结构化、半结构化以及二进制数据等,来探索对数据的深入利用。大多数公司估计他们只分析了已有数据的12%,剩余88%还没有被充分利用。大量的数据孤岛和分析能力的缺乏是造成这种局面的主要原因。另外一个难题是如何判断数据是否有价值。尤其是在大数据时代,为了避免数据丢失你必须采集并存储这些数据。一些看起来与业务无关的数据,如手机GPS数据,将...原创 2018-03-12 13:53:29 · 121 阅读 · 0 评论 -
HanLP代码与词典分离方案与流程
HanLP代码与词典分离方案与流程之前在spark环境中一直用的是portable版本,词条数量不是很够,且有心想把jieba,swcs词典加进来,其他像ik,ansi-seg等分词词典由于没有词性并没有加进来. 本次修改主要是采用jar包方包将词典目录data与hanlp.properties合成一个data.jar文件.1. pom.xml 过滤资源文件的配置 ...原创 2018-10-10 10:29:47 · 235 阅读 · 0 评论 -
Elasticsearch集成HanLP分词器
Elasticsearch集成HanLP分词器1、通过git下载分词器代码。连接如下:https://gitee.com/hualongdata/hanlp-exthanlp官网如下:http://hanlp.linrunsoft.com/2、下载gradle,如果本机有,就可以略过此步骤。通过gradle官方网站下载,解压,配置环境即可。官方安装配置说明:https://...原创 2018-10-09 08:59:58 · 214 阅读 · 0 评论 -
学习hadoop需要什么基础
“学习hadoop需要什么基础”这已经不是一个新鲜的话题了,随便上网搜索一下就能找出成百上千篇的文章在讲学习hadoop需要掌握的基础。再直接的一点的问题就是——学Hadoop难吗?用一句特别让人无语的话回答就是:难不会,会不难!趁着学校放假的时间,写了一些hadoop学习分享的文章。刚开始写的几篇稍微有点乱,其中有一篇就是在说学习hadoop需要什么样基础的。所谓的难不会,会不难,必然也...原创 2018-09-13 12:00:08 · 189 阅读 · 2 评论 -
大快城市智慧停车系统方案的架构体系
最近几年随着大数据技术快速发展与应用,智慧城市随即被正式提出。而且,我们也可以深刻感受到“智慧”正在慢慢改变我们的生活方式和城市。要让城市变智慧的地方太多太多,当前我们接触做多的可能就是外出停车,比如很多商场的停车系统,很多商城的停车场都实现了无人值守。这就是得益于智慧城市停车云平台。很多人对智慧停车云的概念不是明白,智慧停车平台就是利用云计算、物联网、大数据处理技术等手段,通过可持续运营的...2018-05-25 11:42:24 · 486 阅读 · 0 评论 -
什么是大数据系统架构
大数据的应用开发过于偏向底层,具有学习难度大,涉及技术面广的问题,这制约了大数据的普及。现在需要一种技术,把大数据开发中一些通用的,重复使用的基础代码、算法封装为类库,降低大数据的学习门槛,降低开发难度,提高大数据项目的开发效率。大数据在工作中的应用有三种:与业务相关,比如用户画像、风险控制等;与决策相关,数据科学的领域,了解统计学、算法,这是数据科学家的范畴;与工程相关,如何实施、如何...2018-03-16 15:18:00 · 174 阅读 · 0 评论 -
什么是自然语言处理技术
自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别...2018-03-15 13:30:01 · 193 阅读 · 0 评论 -
学习hadoop大数据基础框架需要什么基础
什么是大数据?进入本世纪以来,尤其是2010年之后,随着互联网特别是移动互联网的发展,数据的增长呈爆炸趋势,已经很难估计全世界的电子设备中存储的数据到底有多少,描述数据系统的数据量的计量单位从MB(1MB大约等于一百万字节)、GB(1024MB)、TB(1024GB),一直向上攀升,目前,PB(等于1024TB)级的数据系统已经很常见,随着移动个人数据、社交网站、科学计算、证券交易、网站日志、传...2018-03-14 14:57:11 · 151 阅读 · 0 评论 -
hadoop需要哪些技术支持
hadoop是一个开源软件框架,可安装在一个商用机器集群中,使机器可彼此通信并协同工作,以高度分布式的方式共同存储和处理大量数据。最初,Hadoop 包含以下两个主要组件:Hadoop Distributed File System (HDFS) 和一个分布式计算引擎,该引擎支持以 MapReduce 作业的形式实现和运行程序。Hadoop 还提供了软件基础架构,以一系列 map 和 red...2018-03-13 11:23:59 · 209 阅读 · 0 评论 -
中文自然语言处理工具hanlp隐马角色标注详解
本文旨在介绍如何利用HanLP训练分词模型,包括语料格式、语料预处理、训练接口、输出格式等。 目前HanLP内置的训练接口是针对一阶HMM-NGram设计的,另外附带了通用的语料加载工具,可以通过少量代码导出供其他训练工具使用的特定格式(如CRF++)。语料格式输入语料格式为人民日报分词语料库格式。该格式并没有明确的规范,但总体满足以下几点:1、单词与词性之间使用“/”分割,如华尔街/...原创 2019-02-13 14:31:26 · 709 阅读 · 0 评论