2018年11月_泛泛之素

原创 python数据分析：聚类分析（cluster analysis）

何为聚类分析聚类分析或聚类是对一组对象进行分组的任务，使得同一组（称为聚类）中的对象（在某种意义上）与其他组（聚类）中的对象更相似（在某种意义上）。它是探索性数据挖掘的主要任务，也是统计数据分析的常用技术，用于许多领域，包括机器学习，模式识别，图像分析，信息检索，生物信息学，数据压缩和计算机图形学。聚类分析本身不是一个特定的算法，而是要解决的一般任务。它可以通过各种算法来实现，这些算法在理解...

2018-11-30 16:43:24 92927 3

原创 python数据分析：分类分析（classification analysis）

何为分类分析在机器学习和统计中，分类是基于包含其类别成员资格已知的观察（或实例）的训练数据集来识别新观察所属的一组类别（子群体）中的哪一个的问题。例如，将给定的电子邮件分配给“垃圾邮件”或“非垃圾邮件”类，并根据观察到的患者特征（性别，血压，某些症状的存在或不存在等）为给定患者分配诊断。。分类是模式识别的一个例子。在机器学习的术语中，[1]分类被认为是监督学习的一个实例，即学习可以获得正确识...

2018-11-29 13:47:11 43520 5

原创 python数据分析：回归分析（regression analysis）

何为回归分析：回归分析（regression analysis）指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少，分为一元回归和多元回归分析；按照因变量的多少，可分为简单回归分析和多重回归分析；按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。在大数据分析中，回归分析是一种预测性的建模技术，它研究的是因变量（目标）和自变量（预...

2018-11-28 20:39:55 97758 26

原创 python数据预处理：数据离散化

何为离散化：一些数据挖掘算法中，要求数据是分类属性形式。因此常常需要将连续属性的数据通过断点进行划分最后归属到不同的分类，即离散化。为什么要离散化：调高计算效率分类模型计算需要给予距离计算模型（k均值、协同过滤）中降低异常数据对模型的影响图像处理中的二值化处理ps：离散化也可以用于已经离散化的数据，就是值域的重新划分，一切都是看业务需要连续数据离散化方法：分位数法：使用四分...

2018-11-26 20:17:49 15551

原创 python数据预处理：数据标准化

何为标准化：在数据分析之前，我们通常需要先将数据标准化（normalization），利用标准化后的数据进行数据分析。数据标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题，对不同性质指标直接加总不能正确反映不同作用力的综合结果，须先考虑改变逆指标数据性质，使所有指标对测评方案的作用力同趋化，再加总才能得出正确结果。数...

2018-11-25 17:14:41 36471 2

原创 python数据预处理：数据相关性

何为相关性：相关性分析是指对具备相关性关系的变量进行分析，从而衡量变量间的相关程度或密切程度。相关性可以应用到所有数据的分析过程中，任何事物之间都是存在一定的联系。相关性用R（相关系数）表示，R的取值范围是[-1, 1]相关和因果：相关并不是因果，例如商品销售活动时，通常都会以较低的价格进行销售，以此来实现较高的商品销售量；随着商品销售量的提升，也给线下物流配送体系带来了更大的压力，会导致商...

2018-11-24 19:51:46 7288

原创 python数据预处理：数据共线性处理

何为共线性：共线性问题指的是输入的自变量之间存在较高的线性相关度。共线性问题会导致回归模型的稳定性和准确性大大降低，另外，过多无关的维度计算也很浪费时间共线性产生原因：变量出现共线性的原因：数据样本不够，导致共线性存在偶然性，这其实反映了缺少数据对于数据建模的影响，共线性仅仅是影响的一部分多个变量都给予时间有共同或相反的演变趋势，例如春节期间的网络销售量和销售额都相对与正常时间有下降趋...

2018-11-23 22:03:38 17232

原创 python数据预处理：数据抽样

何为数据抽样：抽样是数据处理的一种基本方法，常常伴随着计算资源不足、获取全部数据困难、时效性要求等情况使用。抽样方法：一般有四种方法：随机抽样直接从整体数据中等概率抽取n个样本。这种方法优势是，简单、好操作、适用于分布均匀的场景；缺点是总体大时无法一一编号系统抽样又称机械、等距抽样，将总体中个体按顺序进行编号，然后计算出间隔，再按照抽样间隔抽取个体。优势,易于理解、简便易行。缺点是...

2018-11-22 17:10:15 6361 2

原创每日一练 no.18 约瑟夫问题

问题：据说著名犹太历史学家 Josephus 有过以下的故事：在罗马人占领桥塔帕特后，39个犹太人与 Josephus 及他的朋友躲到一个洞中，39个犹太人决定宁愿死也不要被敌人抓到，于是决定了一个自杀方式，41个人排成一个圆圈，由第1个人开始报数，每报数到第3人该人就必须自杀，然后再由下一个重新报数，直到所有人都自杀身亡为止。然而 Josephus 和他的朋友并不想自杀，问他俩安排的...

2018-11-21 22:58:53 1071

原创 python数据预处理：样本分布不均（过采样和欠采样）

何为样本分布不均：样本分布不均衡就是指样本差异非常大，例如共1000条数据样本的数据集中，其中占有10条样本分类，其特征无论如何你和也无法实现完整特征值的覆盖，此时属于严重的样本分布不均衡。为何要解决样本分布不均：样本分部不均衡的数据集也是很常见的：比如恶意刷单、黄牛订单、信用卡欺诈、电力窃电、设备故障、大企业客户流失等。样本不均衡将导致样本量少的分类所包含的特征过少，很难从中提取规律，即...

2018-11-21 16:52:24 26943 3

原创 python数据预处理：数据降维

数据为何要降维数据降维可以降低模型的计算量并减少模型运行时间、降低噪音变量信息对于模型结果的影响、便于通过可视化方式展示归约后的维度信息并减少数据存储空间。因此，大多数情况下，当我们面临高维数据时，都需要对数据做降维处理。数据降维有两种方式：特征选择，维度转换特征选择特征选择指根据一定的规则和经验，直接在原有的维度中挑选一部分参与到计算和建模过程，用选择的特征代替所有特征，不改变原有特征，...

2018-11-20 21:16:23 16480 10

原创 python数据预处理：字符变量独热编码(one-hot encoding)

许多的数据采样中会有很多以以字符串形式出现的数据，这样的数据没有办法直接跟其他数值变量合并成向量，这些值一般是分类数据或是顺序数据。分类数据：分类数据指某些数据类别的只能归于某一类非数值型数据，例如男、女。分类数据中的值没有明显高低好坏之分，只是由来区分两个或多个具有相同或相当价值的属性。顺序数据：顺序数据只能归于某一有序类别的非数值型数据，例如用户的价制度分为高、中、低。在顺序数据中，有明...

2018-11-19 22:55:29 9113 9

原创 python数据预处理：使用pandas 进行数据清洗

问题：介绍数据清洗方法。。解答：所谓数据清洗主要处理的是数据中的缺失值、异常值和重复值：缺失值处理数据缺失值指由于各种原因导致数据中存在的空缺值：数据库中的null，python返回对象none，pandas或numpy中的nan；另空字符串是有实体的不算是缺失值，缺失值没有实体。处理数据缺失值一般有4中方法：丢弃补全真值转化不处理丢弃如果缺失的数据量不大，且对其丢弃对...

2018-11-17 16:33:58 5369

原创从0开始学pyspark（十）：使用pyspark.ml.clustering模块对商场顾客聚类

数据下载：数据为kaggle上的关于商场客户的数据，地址：https://www.kaggle.com/vjchoudhary7/customer-segmentation-tutorial-in-python数据准备：数据集很小，四个特征值：性别，年龄，收入能力，消费能力，这里我们用收入能力和消费能力两项对客户进行聚类处理from pyspark.sql import SparkSess...

2018-11-16 19:38:22 8797 9

原创每日一练 no.17

问题：遍历嵌套字典的所有键值对解答：def printDict(d): for k, v in d.items(): if isinstance(v, dict): printDict(v) else: print("{0} : {1}".format(k, v))dic = {'new jersey': {'mercer county': {'...

2018-11-13 20:30:55 599

原创每日一练 no.16 系统监控

问题：使用python对监控系统的内存、cpu、硬盘、网络状态解答：使用 psutil 模块可以对系统进行监控：cpu信息：import psutil# 查看cpu所有信息psutil.cpu_times()# 显示cpu所有逻辑信息psutil.cpu_times(percpu=True)参数解释：user ：用户时间被正常的用户进程所占用的时间，在linux下也包括...

2018-11-11 18:47:40 921

转载每日一练 no.15 网络编程

问题：使用socket实现网络通信。。解答：服务端:from socket import *from time import ctimeHOST = ''PORT = 21567BUFSIZ = 1024ADDR = (HOST, PORT)udpSerSock = socket(AF_INET, SOCK_DGRAM)udpSerSock.bind(ADDR)whi...

2018-11-10 16:14:50 597

原创每日一练 no.14 字典排序

问题：根据字典的key或是value对字典进行排序解答：可以使用sorted进行排序；collection提供了OrderedDict能够按照字典赋值顺序对key-value进行排序。from collections import OrderedDictdic = {'a':31, 'bc':5, 'c':3, 'asd':4, '33':56, 'd':0}# 按照key排序di...

2018-11-09 11:18:27 607

原创从0开始学pyspark（九）：使用pyspark.ml.regression模块预测波士顿房价

数据下载：数据为kaggle上的关于波士顿房价预测的数据，地址：https://www.kaggle.com/c/boston-housing/data也可在这里下载：https://github.com/ffzs/dataset/tree/master/boston数据准备：相关参数：CRIM-- 城镇人均犯罪率。ZN - 占地面积超过25,000平方英尺的住宅用地比例。IN...

2018-11-08 22:07:55 6115

原创每日一练 no.13 密码生成器

题目：密码生成器，输入位数返回密码，要求混合使用小写字母，大写字母，数字和符号解答：灵活使用randomimport stringimport randomdef get_password_normal(size, chars): return ''.join(random.choice(chars) for _ in range(size)) if __name__...

2018-11-08 13:54:50 677

原创每日一练 no.12

题目：生成1到9之间的随机数（包括1和9）。让用户猜测数字，然后告诉他们他们是否猜到太低，太高或完全正确。解答：学会random的用法：import randomnum = random.choice(range(1,10))while True: pred_num = int(input('你猜的数字： ')) if pred_num > num: print(...

2018-11-07 12:53:24 619

原创从0开始学习pyspark（八）：使用pyspark.ml.classification模块对蘑菇进行分类

数据下载：数据为kaggle上的关于蘑菇分类的数据，地址：https://www.kaggle.com/uciml/mushroom-classification也可在这里下载：https://github.com/ffzs/dataset/blob/master/mushrooms.csv数据准备：本数据集用于分类毒蘑菇和可食用蘑菇，共22个特征值，其中特征描述都是字符，用于机器学习的话...

2018-11-06 22:25:00 7387 10

原创每日一练 no.11

问题：用E打印一个楼梯解答：使用sys模块的 stdout 默认不自动换行，换行是使用\n，且stdout.write只能打印字符：import sysfor i in range(1, 11): for j in range(1,i): sys.stdout.write(chr(69)+chr(69)) sys.stdout.write('\n')p...

2018-11-06 21:12:30 602

原创每日一练 no.10

问题：使用python 完成插入排序解答：插入排序（英语：Insertion Sort）是一种简单直观的排序算法。它的工作原理是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。插入排序在实现上，通常采用in-place排序，因而在从后向前扫描过程中，需要反复把已排序元素逐步向后挪位，为最新元素提供插入空间。def insertion_sort(lst):...

2018-11-05 13:58:31 637

原创每日一练 no.9

问题：求1+2!+3!+…+20!的和解答：方法一：使用for循环：n = 0s = 0t = 1for n in range(1,21): t *= n s += tprint(s)方法二：构建函数，使用map，reduce（注意：python3的reduce函数在functools中）from functools import reducel = r...

2018-11-04 10:52:18 678

原创每日一练 no.8

问题：已知有两支乒乓球队要进行比赛，每队各出三人；甲队为a,b,c三人，乙队为x,y,z三人；已抽签决定比赛名单。有人向队员打听比赛的名单。a说他不和x比，c说他不和x,z比，请编程序找出三队赛手的名单。解答：本题看似很简单，c不和x,z，那么只能c–y， a还不和x ，那么只能 a–z，最后只剩下 b–x但是编程解决就没那么简单，因为要兼顾各种情况，具有良好的适配性。解决这个...

2018-11-03 11:44:35 643

原创每日一练 no.7

问题：打印出范围内所有的"水仙花数"。水仙花数是指一个 n 位正整数 ( n≥3 )，它的每个位上的数字的 n 次幂之和等于它本身。（例如：1^3 + 5^3+ 3^3 = 153）解答：r = input('输入范围（例如 100-999）：')n, m = r.split('-')for num in range(int(n), int(m)): str_num = str...

2018-11-02 14:36:37 621

原创每日一练 no.6

问题：判断这个区间内有多少个素数，并逐一输出解答：方法：用一个数分别去除2到sqrt(这个数)，存在整除则为非素数from math import sqrttotal = []for i in range(100, 201): if all([i%j for j in range(2, int(sqrt(i)))]): total.append(i)print...

2018-11-01 13:07:18 594

泛泛之素