想当兔纸的猫-CSDN博客

转载转-xmind7破解方法

转-xmind7破解方法转自https://blog.csdn.net/zengmingen/article/details/81125323第一步：下载xmind7链接：https://pan.baidu.com/s/1YX84I1eJbiXdp2aBf1_GeQ密码：btb6不要在国内下载最新版的，就下载上面的。如果上面的失效，访问国外网站下载：http://w...

2018-07-30 16:35:46 2681 1

转载机器学习之离散型特征的处理-one hot encoder

转载自https://www.cnblogs.com/daguankele/p/6595470.html 1、什么是独热码　　独热码，在英文文献中称做 one-hot code, 直观来说就是有多少个状态就有多少比特，而且只有一个比特为1，其他全为0的一种码制。在机器学习中对于离散型的分类型的数据，需要对其进行数字化比如说性别这一属性，只能有男性或者女性或者其他这三种值，如何对这三个值进

2018-01-31 14:49:49 8273

原创 PySpark 学习笔记六

6 Structured Streaming 6.1 What is Spark Streaming?Spark Streaming的核心是一个可扩展的容错流系统，它采用RDD批处理模式（即批量处理数据）并加快速度。如下图所示，Spark Streaming接收输入数据流，并在内部将该数据流分成多个较小的批次（其大小基于批处理间隔）。 Spark引擎将这些批量的输入数据处理成批量的结果集

2018-01-22 17:47:14 5364 1

原创 PySpark 学习笔记五

5 Introducing the ML Package 在前面，我们使用了Spark中严格基于RDD的MLlib包。在这里，我们将基于DataFrame使用MLlib包。另外，根据Spark文档，现在主要的Spark机器学习API是spark.ml包中基于DataFrame的一套模型。 5.1 ML包的介绍从顶层上看，ML包主要包含三大抽象类：转换器、预测器和工作流。5.1.1

2018-01-22 10:38:34 10557

原创 PySpark 学习笔记四

4 Introducing MLlib MLlib 即Machine Learning Library。 4.1 载入数据并转换数据数据集下载：births_train.csv.gz.。创建数据集的schema：import pyspark.sql.types as typlabels = [ ('INFANT_ALIVE_AT_REPORT', typ.Strin

2018-01-18 18:01:14 9977

原创 PySpark 学习笔记三

3 Prepare Data for Modeling 所有的数据都是脏的，不管是从网上下载的数据集，或其他来源。直到你测试和证明你的数据处于干净状态才能用来建模。因此，为了建模需要清理数据集，还需要检查数据集的特征分布，并确认它们符合预定义的标准。 3.1 检查重复项、缺失值和异常值重复项生成一个简单的dataframe如下：>>> df = spark.create

2018-01-16 18:59:29 11912 1

原创 PySpark 学习笔记二

2 DataFrames 和Python的dataframe类似，pyspark也有dataframe，其处理速度远快于无结构的RDD。 Spark 2.0 用 SparkSession 代替了SQLContext。各种 Spark contexts，包括: HiveContext, SQLContext, StreamingContext,以及SparkContext 全部合并到

2018-01-15 14:48:20 5787 3

原创 PySpark 学习笔记一

为了更好地进行大数据分析与处理，最近在学习PySpark，整理了一下笔记，加深印象。1 Resilient Distributed Datasets（RDD）弹性分布式数据集（RDD）是一个不可变的JVM对象的分布式集合，是Spark的基本抽象。1.1 创建RDD 准备工作：>>> import pyspark>>> from pyspark import SparkC

2018-01-12 17:03:30 8822 1

转载 Pymongo Tutorial & Pymongo入门教

Pymongo入门教程转载自http://www.open-open.com/lib/view/open1414223469247.html 本教程是pymongo和Mongo的一个简单介绍，基于pymongo2.7.2的tutorial。看完后应该对Pymongo对Mongo的基本操作有认识了。教程这教程是pymongo和Mongo的一个简单介绍。看完后应该对Pymongo

2018-01-10 17:11:15 4754

转载 Ubuntu下安装MongoDB

Ubuntu下安装MongoDB转载自https://www.cnblogs.com/melonjiang/p/6536876.html下载python中MongoDB的驱动程序 pip install pymongo然后确保MongoDB已经安装且可以正常运行，去官网下载相应版本mkdir -p /home/toolscd/home/toolswget h

2018-01-10 16:36:25 4947

原创 Ubuntu下安装pyspark

Ubuntu下安装pyspark安装环境 Python2.7 Ubuntu14.04Java6+ 步骤一：下载spark 下载地址：spark官网，我选择的是spark-2.2.1-bin-hadoop2.7.tgz步骤二：解压压缩包tar -xzf spark-2.2.1-bin-hadoop2.7.tgz步骤三：移动spark位置（可略）

2018-01-08 15:12:08 13001 2

转载机器学习-训练模型的保存与恢复（sklearn）

机器学习-训练模型的保存与恢复（sklearn）

2017-12-20 14:18:07 5603

原创常用Linux操作命令

Linux操作命令

2017-12-19 18:18:37 5317 1

原创解决matplotlib不能显示中文的问题（Ubuntu）

解决matplotlib不能显示中文的问题（Ubuntu）

2017-12-15 15:38:41 6871

原创 SQL查询重复的记录

面试的时候被问到了一道很简单的sql题目，开始做错了，经过面试官提醒才改对。有必要在此记录一下，警示自己。题目：在user表中，有属性id、name 两列，查出name属性值重复2次以上的记录数据。解析：使用group by答案： select * from user where name in(select name from user group by name having co

2017-10-09 17:14:55 4814

原创《数据库SQL实战》两次left join

数据库 left join

2017-10-07 19:14:29 12670

原创《数据库SQL实战》不使用order by

此题来自于nowcoder，要求不使用order by 取排名第二多的数据。题目：查找当前薪水(to_date=’9999-01-01’)排名第二多的员工编号emp_no、薪水salary、last_name以及first_name，不准使用order by CREATE TABLE employees ( emp_no int(11) NOT NULL, birth_d

2017-10-07 18:02:08 5675

原创 K-means聚类与DBSCAN的比较

K-means、 DBSCAN、聚类算法

2017-10-06 21:29:28 16398

原创数据库INNER JOIN、LEFT JOIN和RIGHT JOIN

由于对数据库的INNER JOIN、LEFT JOIN和RIGHT JOIN的用法有点模糊不清，特在此做一个梳理总结。首先需明确一个概念：A INNER/LEFT/RIGHT JOIN B操作中，A表被称为左表，B表被称为右表。然后记住以下三点：A INNER JOIN B ON…… 内联操作，将符合ON条件的A表和B表结果均搜索出来，然后合并为一个结果集。A LEFT JOIN B

2017-09-29 15:55:12 4848

原创《数据库SQL实战》查找涨幅超过15次

此题来自nowcoder, 开始题目的意思没有读懂题目：查找薪水涨幅超过15次的员工号emp_no以及其对应的涨幅次数t CREATE TABLE salaries ( emp_no int(11) NOT NULL, salary int(11) NOT NULL, from_date date NOT NULL, to_date date NOT NULL

2017-09-29 11:27:10 4799

原创《数据库SQL实战》取倒数第三

此题来自于nowcoder，在此记录一下limit的用法，加深印象。题目：查找入职员工时间排名倒数第三的员工所有信息CREATE TABLE `employees` (`emp_no` int(11) NOT NULL,`birth_date` date NOT NULL,`first_name` varchar(14) NOT NULL,`last_name` varchar(16)

2017-09-29 10:02:19 9000

原创学习笔记之分析思维

1、学会利用金字塔原理金字塔原理的核心：逻辑化思考、结构化思考、层次化思考什么是金字塔？任何一件事情都有一个中心论点，中心论点可以划分成3～7个分论点，分论点又可以由3～7个论据支撑。金字塔的MECE法则（读作MeSee）：Mutually Exclusive Collectively Exhaustive，中文意思是相互独立，完全穷尽。也就是说，提出的每一个分论点彼此不冲突，是独立存在

2017-09-28 15:53:48 4678