数据采集和整理
文章平均质量分 89
梵天的读书笔记
技术宅
展开
-
RDD----Spark编程读书笔记
Spark 核心的概念是 Resilient Distributed Dataset (RDD):一个可并行操作的有容错机制的数据集合。有 2 种方式创建 RDDs:第一种是在你的驱动程序中并行化一个已经存在的集合;另外一种是引用一个外部存储系统的数据集,例如共享的文件系统,HDFS,HBase或其他Hadoop 数据格式的数据源。1. 并行集合并行集合 (Parallelized collect...原创 2018-03-09 12:18:53 · 291 阅读 · 0 评论 -
Spark与机器学习----数据的获取、处理与准备
1. 数据获取常用公开数据集:UCL机器学习知识库: 包括近300个不同大小和类型的数据集,可用于分类、回归、聚类和推荐系统任务。数据集列表位于: http://archive.ics.uci.edu/ml/。Amazon AWS公开数据集: 包含的通常是大型数据集,可通过Amazon S3访问。相关信息可参见: http://aws.amazon.com/publicdatasets/。Kagg...原创 2018-03-10 19:09:09 · 1300 阅读 · 0 评论 -
Pair RDD----键值对操作
Spark 为包含键值对类型的 RDD 提供了一些专有的操作。这些 RDD 被称为 pair RDD。 PairRDD 是很多程序的构成要素, 因为它们提供了并行操作各个键或跨节点重新进行数据分组的操作接口。1. 创建Pair RDD很多存储键值对的数据格式会在读取时直接返回由其键值对数据组成的 pair RDD。此外,当需要把一个普通的 RDD 转为 pair RDD 时,可以调用 map() ...原创 2018-03-19 11:16:55 · 623 阅读 · 1 评论 -
Schema RDD(DataFrame)----Spark SQL操作
SchemaRDD是存放 Row 对象的 RDD,每个 Row 对象代表一行记录。 SchemaRDD 还包含记录的结构信息(即数据字段)。 SchemaRDD 看起来和普通的 RDD 很像,但是在内部, SchemaRDD 可以利用结构信息更加高效地存储数据。 此外, SchemaRDD 还支持 RDD 上所没有的一些新操作,比如运行 SQL 查询。 SchemaRDD 可以从外部数据源创建,也...原创 2018-03-19 12:11:36 · 2199 阅读 · 0 评论 -
DStream----Spark Streaming操作
DStream 是随时间推移而收到的数据的序列。每个时间区间收到的数据都作为 RDD 存在,而 DStream 是由这些 RDD 所组成的序列(因此得名“离散化”)。 DStream 可以从各种输入源创建,比如 Flume、 Kafka 或者 HDFS。创建出来的 DStream 支持两种操作,一种是转化操作( transformation),会生成一个新的DStream,另一种是输出操作( ou...原创 2018-03-19 12:16:10 · 338 阅读 · 0 评论 -
Scrapy框架----爬虫读书笔记
制作Scrapy爬虫,最基础的需要四步:新建项目scrapy startproject Movies 自动生成一个名为“Movies”的爬虫项目scrapy genspider getmovies movie.douban.com自动生成一个名为“getmovies”的爬虫整个项目目录结构如下: 定义目标数据编辑items.py文件,定义需要获取数据的结构,该结构操作类似字典操作import...原创 2018-03-01 10:43:58 · 204 阅读 · 0 评论 -
转载Pandas用法汇总
一、生成数据表 1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd2、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv('name.csv',header=1))df = pd.DataFrame(pd.read_excel('name.xlsx'))3、用p...转载 2018-03-06 15:13:04 · 257 阅读 · 0 评论 -
Python数据分析----数据探索
1. 数据质量分析数据质量分析的主要任务是检查原始数据中是否存在脏数据:缺失值、异常值、不一致值、重复数据和含有特殊符号的数据。1.1. 缺失分析1)缺失的原因:有些信息无法获取或获取的代价过大有些信息是被遗漏属性值不存在2)缺失的影响数据挖掘建模将丢失大量有用信息数据挖掘模型所表现出的不确定性更加显著,模型中蕴含的规律更难把握包含空值的数据会使建模过程陷入混乱,导致不可靠的输出3)缺失值分析试用...原创 2018-04-04 09:23:24 · 2039 阅读 · 0 评论 -
Python数据分析----数据预处理
数据预处理主要包括:数据清洗、数据集成、数据变换和数据规约。1. 数据清洗数据清洗主要是删除原始数据中的无关数据、重复数据,平滑噪音数据,筛选掉和挖掘主题无关的数据,处理缺失值和异常值。1.1. 缺失值处理处理缺失值数据方法有三类:删除记录、数据插补和不处理。其中数据插补方法如下:1)均值/中数值/众数插补:根据属性类型,用均值、中数值或众数进行插补。2)使用固定值:将缺失的属性值用一个常量替换。...原创 2018-04-04 15:36:23 · 2806 阅读 · 1 评论