大数据
越来越胖的GuanRunwei
前WEB开发码农,.NET发烧友,前NLP菜鸡,利物浦大学在读博士
展开
-
Hadoop由哪几部分组成?
Hadoop是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理,其有许多元素构成,以下是其组成元素:1.Hadoop Common:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。2.HDFS:分布式文件系统,提供高吞吐量的应用程序数据访问,对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建...原创 2020-02-14 22:26:23 · 7278 阅读 · 0 评论 -
jieba分词的三种模式
1、精确模式:试图将句子最精确地分开,适合文本分析seg_list = jieba.cut(test_text, cut_all=False)seg_list = " ".join(seg_list)print("cut_all=False:", seg_list)输出:cut_all=False: 我 今天下午 打篮球2、全模式:把句子中所有的可以成词的词语都扫描出...原创 2019-11-18 16:50:08 · 6226 阅读 · 0 评论 -
维基中文语料数据抽取代码修改版(适用于Python3)
#!/usr/bin/env python# -*- coding: utf-8 -*-# 修改后的代码如下:import loggingimport os.pathimport sysfrom gensim.corpora import WikiCorpusif __name__ == '__main__': program = os.path.basename...原创 2019-11-17 19:55:00 · 355 阅读 · 0 评论 -
大数据工程师需要学习哪些技术?
"大数据"是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。1、 数据体量巨大。从TB级别,跃升到PB级别。2、 数据类型繁多,涉及网络日志、视频、图片、地理位置等信息。3、 价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。4、 处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技...转载 2019-10-09 10:26:47 · 765 阅读 · 0 评论