自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(22)
  • 收藏
  • 关注

转载 转-xmind7破解方法

转-xmind7破解方法转自https://blog.csdn.net/zengmingen/article/details/81125323第一步:下载xmind7链接:https://pan.baidu.com/s/1YX84I1eJbiXdp2aBf1_GeQ密码:btb6不要在国内下载最新版的,就下载上面的。如果上面的失效,访问国外网站下载:http://w...

2018-07-30 16:35:46 2317 1

转载 机器学习之离散型特征的处理-one hot encoder

转载自https://www.cnblogs.com/daguankele/p/6595470.html 1、什么是独热码   独热码,在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特,而且只有一个比特为1,其他全为0的一种码制。在机器学习中对于离散型的分类型的数据,需要对其进行数字化比如说性别这一属性,只能有男性或者女性或者其他这三种值,如何对这三个值进

2018-01-31 14:49:49 8197

原创 PySpark 学习笔记六

6 Structured Streaming 6.1 What is Spark Streaming?Spark Streaming的核心是一个可扩展的容错流系统,它采用RDD批处理模式(即批量处理数据)并加快速度。 如下图所示,Spark Streaming接收输入数据流,并在内部将该数据流分成多个较小的批次(其大小基于批处理间隔)。 Spark引擎将这些批量的输入数据处理成批量的结果集

2018-01-22 17:47:14 5300 1

原创 PySpark 学习笔记五

5 Introducing the ML Package 在前面,我们使用了Spark中严格基于RDD的MLlib包。 在这里,我们将基于DataFrame使用MLlib包。 另外,根据Spark文档,现在主要的Spark机器学习API是spark.ml包中基于DataFrame的一套模型。 5.1 ML包的介绍 从顶层上看,ML包主要包含三大抽象类:转换器、预测器和工作流。5.1.1

2018-01-22 10:38:34 10406

原创 PySpark 学习笔记四

4 Introducing MLlib MLlib 即Machine Learning Library。 4.1 载入数据并转换数据 数据集下载:births_train.csv.gz.。 创建数据集的schema:import pyspark.sql.types as typlabels = [ ('INFANT_ALIVE_AT_REPORT', typ.Strin

2018-01-18 18:01:14 9807 1

原创 PySpark 学习笔记三

3 Prepare Data for Modeling 所有的数据都是脏的,不管是从网上下载的数据集,或其他来源。直到你测试和证明你的数据处于干净状态才能用来建模。因此,为了建模需要清理数据集,还需要检查数据集的特征分布,并确认它们符合预定义的标准。 3.1 检查重复项、缺失值和异常值重复项生成一个简单的dataframe如下:>>> df = spark.create

2018-01-16 18:59:29 11790 1

原创 PySpark 学习笔记二

2 DataFrames 和Python的dataframe类似,pyspark也有dataframe,其处理速度远快于无结构的RDD。 Spark 2.0 用 SparkSession 代替了SQLContext。各种 Spark contexts,包括: HiveContext, SQLContext, StreamingContext,以及SparkContext 全部合并到

2018-01-15 14:48:20 5701 3

原创 PySpark 学习笔记一

为了更好地进行大数据分析与处理,最近在学习PySpark,整理了一下笔记 ,加深印象。1 Resilient Distributed Datasets(RDD)弹性分布式数据集(RDD)是一个不可变的JVM对象的分布式集合,是Spark的基本抽象。1.1 创建RDD 准备工作:>>> import pyspark>>> from pyspark import SparkC

2018-01-12 17:03:30 8666 2

转载 Pymongo Tutorial & Pymongo入门教

Pymongo入门教程转载自http://www.open-open.com/lib/view/open1414223469247.html 本教程是pymongo和Mongo的一个简单介绍,基于pymongo2.7.2的tutorial。看完后应该对Pymongo对Mongo的基本操作有认识了。教程这教程是pymongo和Mongo的一个简单介绍。看完后应该对Pymongo

2018-01-10 17:11:15 4704

转载 Ubuntu下安装MongoDB

Ubuntu下安装MongoDB转载自https://www.cnblogs.com/melonjiang/p/6536876.html下载python中MongoDB的驱动程序 pip install pymongo然后确保MongoDB已经安装且可以正常运行,去官网下载相应版本mkdir -p /home/toolscd/home/toolswget h

2018-01-10 16:36:25 4895

原创 Ubuntu下安装pyspark

Ubuntu下安装pyspark安装环境 Python2.7 Ubuntu14.04Java6+ 步骤一:下载spark 下载地址:spark官网 ,我选择的是spark-2.2.1-bin-hadoop2.7.tgz步骤二:解压压缩包tar -xzf spark-2.2.1-bin-hadoop2.7.tgz步骤三:移动spark位置(可略)

2018-01-08 15:12:08 12854 2

转载 机器学习-训练模型的保存与恢复(sklearn)

机器学习-训练模型的保存与恢复(sklearn)

2017-12-20 14:18:07 5547

原创 常用Linux操作命令

Linux操作命令

2017-12-19 18:18:37 5224 1

原创 解决matplotlib不能显示中文的问题(Ubuntu)

解决matplotlib不能显示中文的问题(Ubuntu)

2017-12-15 15:38:41 6758

原创 SQL查询重复的记录

面试的时候被问到了一道很简单的sql题目,开始做错了,经过面试官提醒才改对。有必要在此记录一下,警示自己。题目: 在user表中,有属性id、name 两列,查出name属性值重复2次以上的记录数据。解析: 使用group by答案: select * from user where name in(select name from user group by name having co

2017-10-09 17:14:55 4767

原创 《数据库SQL实战》两次left join

数据库 left join

2017-10-07 19:14:29 12172

原创 《数据库SQL实战》不使用order by

此题来自于nowcoder,要求不使用order by 取排名第二多的数据。 题目: 查找当前薪水(to_date=’9999-01-01’)排名第二多的员工编号emp_no、薪水salary、last_name以及first_name,不准使用order by CREATE TABLE employees ( emp_no int(11) NOT NULL, birth_d

2017-10-07 18:02:08 5601

原创 K-means聚类与DBSCAN的比较

K-means、 DBSCAN、聚类算法

2017-10-06 21:29:28 16125

原创 数据库INNER JOIN、LEFT JOIN和RIGHT JOIN

由于对数据库的INNER JOIN、LEFT JOIN和RIGHT JOIN的用法有点模糊不清,特在此做一个梳理总结。 首先需明确一个概念:A INNER/LEFT/RIGHT JOIN B操作中,A表被称为左表,B表被称为右表。 然后记住以下三点:A INNER JOIN B ON…… 内联操作,将符合ON条件的A表和B表结果均搜索出来,然后合并为一个结果集。A LEFT JOIN B

2017-09-29 15:55:12 4803

原创 《数据库SQL实战》查找涨幅超过15次

此题来自nowcoder, 开始题目的意思没有读懂 题目: 查找薪水涨幅超过15次的员工号emp_no以及其对应的涨幅次数t CREATE TABLE salaries ( emp_no int(11) NOT NULL, salary int(11) NOT NULL, from_date date NOT NULL, to_date date NOT NULL

2017-09-29 11:27:10 4731

原创 《数据库SQL实战》取倒数第三

此题来自于nowcoder,在此记录一下limit的用法,加深印象。 题目:查找入职员工时间排名倒数第三的员工所有信息CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16)

2017-09-29 10:02:19 8798

原创 学习笔记之分析思维

1、学会利用金字塔原理金字塔原理的核心:逻辑化思考、结构化思考、层次化思考 什么是金字塔?任何一件事情都有一个中心论点,中心论点可以划分成3~7个分论点,分论点又可以由3~7个论据支撑。 金字塔的MECE法则(读作MeSee):Mutually Exclusive Collectively Exhaustive,中文意思是相互独立,完全穷尽。也就是说,提出的每一个分论点彼此不冲突,是独立存在

2017-09-28 15:53:48 4612

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除