Spark
文章平均质量分 97
ccrrpp
这个作者很懒,什么都没留下…
展开
-
Machine Learning with Spark 笔记(chapter3 )
处理和转化自己的数据 1)过滤损坏或丢失的数据。 2)填补损坏或丢失的数据。 3)增加潜在问题的鲁棒性 从你的数据中提取有意义的特征 1)数字特征:一般为整形,如年龄等 2)类别特征:例如性别 3)文本特征:例如电影名,描述等 有以下几个方法处理: 1.Tokenization : 标记化 2.Stop w原创 2015-12-18 14:18:09 · 456 阅读 · 0 评论 -
NoSql数据库总览
几种常用的NoSql数据库 文本主要总结市面上比较常见的几种NoSql数据库,分析其优劣: HBase Redis MongoDB CouchBase LevelDB HBase Hbase是Apache Hadoop的一个子项目,其构建在Hadoop的HDFS上的分布式列存储系统。基于Google的Google BigTable模型开发,是比较经典的key/value系统。从逻辑上讲,H原创 2017-08-15 19:38:37 · 466 阅读 · 0 评论