2019年06月_Asher117

原创【算法与数据结构】稀疏矩阵

稀疏矩阵的存储方式：1.三元组（行、列，值）2.行逻辑链接的顺序表3.十字链表

2019-06-28 18:32:20 733

原创【Windows XP】下载地址及产品密钥

这次需要在虚拟机中装XP系统，找了好多产品密钥都是不好用的，最后终于找到合适的了，迫不及待的分享。1.XP系统下载http://msdn.itellyou.cn/用迅雷下载Windows XP Professional with Service Pack 3 (x86) - CD VL (Chinese-Simplified)下载下来后的名字是zh-hans_windows_xp_prof...

2019-06-26 10:22:15 26723 15

原创【算法与数据结构】三、循环队列

FIFO(先进先出)rear:队尾front:对头N:队长操作：push:r=(r+1)%Npop:f=(f+1)%Nfull:(r+1)%N=fempty:f=rlength:(r-f+N)%N

2019-06-25 19:45:47 669

原创【UltraISO】中文破解版

下载链接：https://cn.ultraiso.net/uiso9_cn.exe简体中文版专用：注册名：Guanjiu 注册码：A06C-83A7-701D-6CFC多国语言版专用: 注册名: Home 注册码: 4BA9-0D54-214A-C938...

2019-06-25 14:25:16 63463 36

原创【Hadoop】慢慢自学

分布式存储、分布式技术（MapReduce）批处理：MapReduce、Spark流计算：Storm等图计算：Pregel等查询分析计算：Hive等云计算：解决分布式存储和分布式技术物联网：感知层、网络层、处理层、应用层...

2019-06-22 22:30:03 293

原创【面试总结】2019年找工作面试题总结(数据相关方向)

【字节跳动】大数据岗位面试题：二叉树序列化与反序列化进程和线程定义，公用什么列表两个元素和递归思想:n的全排列Hadoop：Map和Reduce

2019-06-22 22:28:49 519

原创【算法与数据结构】Python实现十三大查找和排序算法

顺序查找：按照列表顺序挨个对比是否为目标值，知道找到，时间复杂度O(N)二分查找：列表是顺序列表，每次从中间值开始搜索，筛除一般，时间复杂度O(logN)Hash查找：根据索引直接查找，时间复杂度为O(1)问题：Hash查找会出现冲突，解决方法线性探测法或其他方法冒泡排序：每次比较临近两个值，互换位置，每次循环完最大值到最后位置短冒泡排序：冒泡排序的改进选择排序：冒泡排序的改进，减少交...

2019-06-22 22:24:21 1149

原创【Python】递归实现n的全排列

这是面试字节跳动的大数据岗位时候面试官给的一个题目，就是输出n个数的全排列。当n=1是，perm(1)= [[1]]当n=2是，对于perm(1)里面的每个子list，n可以在list的第0个位置到最后一个位置，这里perm(1)里只有一个子list [1],所以perm(2)= [[2,1],[1,2]]当n=3时，perm(2)的子list有[2,1]和[1,2],对于子list为[2...

2019-06-22 19:09:20 4625 2

原创【Python】四种命名方式

object：公用方法_object：半保护_ _object：全保护_ object _：内建方法

2019-06-22 16:14:12 1029

原创【Python】pandas的describe参数详解

pandas的describe可以用来展示数据的一些描述性统计信息，因此经常用到。describe的官网参数如下图：使用实例：df = pd.DataFrame(data={ 'A':list('abaacdadaf'), 'B':[2,4,6,3,6,2,5,8,0,2]})percentiles:设置输出的百分位数，默认为[.25，.5，。75]，返回第25，第50...

2019-06-22 15:41:39 34959 5

原创【Python】浅拷贝、深拷贝

a = list(…)b = a 复制，a变则b变c = copy.copy(a)浅拷贝，只拷贝父对象，不拷贝父对象中的子对象，a的子对象变则c变，a的父对象变c不变d=copy.deepcopy© 深拷贝，完全拷贝，完全独立于原对象，a变d也不变...

2019-06-22 14:40:42 118

转载【Python】pickle包的dump函数和load函数

pickle包的dump函数和load函数分别实现了数据的序列化和反序列化。一、dump()方法pickle.dump(obj, file, [,protocol])注释：序列化对象，将对象obj保存到文件file中去。参数protocol是序列化模式，默认是0（ASCII协议，表示以文本的形式进行序列化），protocol的值还可以是1和2（1和2表示以二进制的形式进行序列化。其中，1是老...

2019-06-19 11:27:06 1735

原创【Python】图形交互界面GUI之tkinter各大控件详解

from tkinter import *window = Tk()#创建一个窗口window.title('第一个窗体')#添加标题

2019-06-18 10:15:35 11104 6

原创【Python】DataFrame使用drop_duplicates()函数去重（不）保留重复值，取重复值

摘要在进行数据分析时，我们经常需要对DataFrame去重，但有时候也会需要只保留重复值。这里就简单的介绍一下对于DataFrame去重和取重复值的操作。创建DataFrame这里首先创建一个包含一行重复值的DataFrame。DataFrame去重，可以选择是否保留重复值，默认是保留重复值，想要不保留重复值的话直接设置参数keep为False即可。3.取DataFra...

2019-06-06 12:35:14 30531 1

原创【Python】删除DataFrame某行或某列

摘要在进行数据分析操作时，经常只需要选取我们需要的行，或者列，本章就讲一下删除行列的操作。从本文你也可以知道drop函数的axis参数0和1分别代表列和行。1.创建DataFrame首先创建一个简单的DataFrame2.删除DataFrame的’bb’行直接采用drop函数即可，设置参数axis=0. 参数axis为0表示在0轴（列）上搜索名字为bb的对象，然后删除对象bb对应的行。...

2019-06-06 12:34:57 70681 4

原创【Python3】DataFrame重命名列名

摘要简单介绍一下DataFrame重命名列名的两种方法。有下面DataFrame。1.使用columns()重命名2.使用rename方法重命名,这个方法在你只想改部分列名时十分好用，默认是使用新的DataFrame，可以自己选择参数inplace为True在原DataFrame上更改。欢迎关注微信公众号：516数据工作室...

2019-06-06 12:34:43 62957

原创【Python】字符串和datetime相互转换

摘要时间序列（time series）数据是一种重要的结构化数据形式，应用于多个领域，包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。在进行时间序列问题分析时，通常需要将字符串和datetime类型相互转换，本文分享他们之间相互转换的集中常用方法（主要用到的库有datetime、pandas以及dateutil）。(一)datetime...

2019-06-06 12:34:26 14904

原创【Python】保留n位小数

使用Python数据处理时，经常要对数据保留几位小数：eg:对x保留两位小数：round(x,2)

2019-06-06 12:33:52 10814 3

原创【R语言】清空工作空间

查看工作空间ls()清空工作空间rm(list=ls())我们下次再见，如果还有下次的话！！！欢迎关注微信公众号：516数据工作室

2019-06-06 12:32:47 30443

原创【R语言】时间序列单位根检验

扩展包：library(tseries)单位根检验：adf.test()eg：一般p<0.5即可我们下次再见，如果还有下次的话！！！欢迎关注微信公众号：516数据工作室

2019-06-06 12:32:30 24321 6

原创【Python】关联规则实例

这是最近找机器学习实习的一个笔试题：看到这个题的时候第一想法就是用关联规则(Apriori算法)来实现。关联规则最重要的就是支持度Support和置信度Confidence。支持度的计算方法：#下面式中X∩Y表示X和Y同时发生的次数，N表示总事物数support(X->Y) = X∩Y/N置信度的计算方法：confidence(X->Y) = support(X-&g...

2019-06-06 12:32:11 5572

原创【Python】DataFrame的列标准化

这里分享DataFrame的列标准化以及对DataFrame分组之后列标准化。DataFrame的列标准化import pandas as pdimport numpy as npdf = pd.DataFrame(data={ 'A':[1,1,2,2,2], 'B':[2,3,4,6,5], 'C':[3,8,5,12,6]})dfdf.apply...

2019-06-06 12:30:58 20390

原创【Python】SVM实现数据分类案例(包含参数优化)

这是一篇机器学习岗位的笔试题，题目大概就是：给定了数据特征和数据标签(二分类)，使用机器学习算法对数据进行分类，并优化两个重要的参数，计算AUC指标，画出参数优化和AUC指标变化图。本文选择的是SVM(支持向量机)来实现这一过程，SVM是非常强大、灵活的有监督学习的算法，既可以用于分类，也可以用于回归。实现过程：1.导入需要的包import pandas as pdimport num...

2019-06-06 12:29:25 26460 5

原创【SAS】数据类型转换

数值型转成字符型：put函数字符型转成数值型：input函数#思路：#首先创建一个新的数据表#然后将要更改数据类型的列Column1#复制到新列Column2#然后删除列Column1#最后将列Column2的列名再改为Column1Data TableB; set TableA; Column2 = put(Column1,$10.); drop Column1; ren...

2019-06-06 12:29:03 7464

原创 [Python3]时间戳与时间的相互转换

摘要在用Python处理数据时，可能有时候会需要将时间转换成时间戳，或者说将时间戳转换成时间，这里分享一下时间戳与时间的相互转换的方法。在Python里面处理时间相关问题，基本上用的包就是time和datetime两个，这里也是用这两个包实现时间戳和时间的相互转换。导入需要的包时间戳转换成时间在时间戳转换成时间的时候要注意，你的时间戳是秒级别的还是毫秒级别的，如果是毫秒级别的你需要除1...

2019-06-06 08:44:40 27552

原创【Python】matplotlib画图设置颜色、标记和线型（系列2）

摘要上一节讲了如何设置标题、轴标签、刻度、刻度标签。本节讲解设置颜色、标记和线型。1.画基础图import matplotlib.pyplot as pltfrom numpy.random import randnplt.plot(randn(30).cumsum())2.设置颜色（color参数）k:blackb:blueg:greenr:redc:cyan(青色）...

2019-06-06 08:43:52 27041

原创【Python】matplotlib画图设置标题、轴标签、刻度、刻度标签（系列1）

摘要信息可视化（也叫绘图）是数据分析中最重要的工作之一。它可能是探索过程的一部分，例如，帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外，做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化，但我这里重要关注于matplotlib和基于它的库。导入包创建图import matplotlib.pyplot as pltimport...

2019-06-06 08:43:38 63219 5

原创【R语言】package '***' is not available(for R version 3.4.3)

今天使用panelvar包时，显示我的R版本太低，报警告：package 'panelvar' is not available(for R version 3.4.3)对于此类问题解决方法，可以使用以下语句来解决：source("http://bioconductor.org/biocLite.R")biocLite("包名")首先下载BiocInstaller包，然后通过Bioc...

2019-06-06 08:42:34 19594

原创 [Python3]pandas.merge用法详解

摘要数据分析与建模的时候大部分时间在数据准备上，包括对数据的加载、清理、转换以及重塑。pandas提供了一组高级的、灵活的、高效的核心函数，能够轻松的将数据规整化。这节主要对pandas合并数据集的merge函数进行详解。(用过SQL或其他关系型数据库的可能会对这个方法比较熟悉。)1.merge函数的参数一览表2.创建两个DataFrame3.pd.merge()方法设置连接字段。...

2019-06-06 08:42:18 170469 6

原创【Python】分组统计GroupBy技术详解

摘要进行数据分析时，GroupBy分组统计是非常常用的操作，也是十分重要的操作之一。基本上大部分的数据分析都会用到该操作，本文将对Python的GroupBy分组统计操作进行讲解。1.GroupBy过程首先看看分组聚合的过程，主要包括拆分（split）、应用（Apply）和合并（Combine）2.创建DataFrameimport pandas as pdipl_data = {...

2019-06-06 08:41:58 45126 1

原创 [Python3]pandas.concat用法详解

前面给大家分享了pandas.merge用法详解，这节分享pandas数据合并处理的姊妹篇，pandas.concat用法详解，参考利用Python进行数据分析与pandas官网进行整理。

2019-06-06 08:41:34 58748 4

原创【Python】np.where()替换缺失值

使用Python做数据分析时经常需要替换缺失值。 1. np.where(条件,x,y) np.where函数的结果是，如果“条件”为真，则x，否则y。 2.如下 import pandas as pdimport numpy as npdf = pd.DataFrame(data={ 'A':[1,1,np.nan,2], 'B':[2,np.nan,4,5], ...

2019-06-06 08:41:18 6272

原创【SQL】排名函数ROW_NUMBER、RANK、DENSE_RANK和NTILE讲解

SQL中四大排名为：ROW_NUMBER、RANK、DENSE_RANK和NTILE。其中用法为：SELECT ROW_NUMBER()|RANK()|DENSE_RANK()|NTILE(n) OVER( ORDER BY 列名 [DESC] ) AS NewColumn，* FROM TABLE ......注意：1.你可能会注意到NTILE函数中带有参数n，这个函数用来对...

2019-06-06 08:40:58 1225

原创【Python】turtle库常用命令

常用绘图命令#向当前画笔方向移动d像素长度turtle.forward(d)#向当前画笔相反方向移动d像素长度turtle.backward(d)#顺时针移动degree度turtle.right(degree)#逆时针移动degree度turtle.left(degree)颜色设置#设置画笔颜色pencolor=color1turtle.pencolor(color...

2019-06-06 08:40:23 5310

原创【Python】解析PDF文档文本和表格内容的四大方法介绍

很多文件为了安全都会存成PDF格式，比如有的论文、技术文档、书籍等等，这给程序读取这些文档内容带来了很多麻烦。Python目前解析PDF的扩展包有很多，本文将对比介绍PyPDF2、pdfplumber、pdfminer3k以及Camelot，告诉你哪个是好用的PDF解析工具。本文使用的案例PDF文档下载链接：链接：https://pan.baidu.com/s/1zH7vY47AqBYKM0X...

2019-06-05 20:16:39 14511 3

原创【Python】文本情感分析及绘制词云

这篇文章主要分享了使用Python来对文本数据进行情感分析以及绘制词云。主要步骤包括：1.文本预处理2.文本分词3.去除停用词(这里设置为单个词和一些常见的停用词)4.词频统计5.情感分析6.绘制词云首先导入所需的程序办和文本数据：#带入程序包import pandas as pdimport reimport jiebaimport collectionsfrom w...

2019-06-05 20:16:18 13237 18

原创 R语言实现PVAR(面板向量自回归模型)

这次研究了一个问题，要用PVAR(面板向量自回归模型)，在网上找的教程基本上都是Stata或者Eviews的教程，而鲜有R实现PVAR的教程，这里总结分享一下我摸索的PVAR用R实现的整个过程。...

2019-06-05 20:16:00 19526 34

原创【Python】DataFrame一列拆成多列以及一行拆成多行

摘要在进行数据分析时，我们经常需要把DataFrame的一列拆成多列或者根据某列把一行拆成多行，这篇文章主要讲解这两个目标的实现。读取数据将City列转成多列（以‘|’为分隔符）这里使用匿名函数lambda来讲City列拆成两列。3.将DataFrame一行拆成多行（以‘|’为分隔符）方法一：在刚刚得到的DataFrame基础上操作,如下图所以，可以明显看到我们按照City列将D...

2019-06-05 20:15:44 79989 15

原创 Python的DataFrame切片大全（包含多重索引）

摘要这篇主要讲解如何对pandas的DataFrame进行切片，包括取某行、某列、某几行、某几列、以及多重索引的取数方法。导入包并构建DataFrame二维数据取DataFrame的某列三种方法取DataFrame某几列的两种方法取DataFrame的某行三种方法取DataFrame的某几行三种方法取DataFrame的某特定位置元素的方法...

2019-06-05 20:15:17 79544 7

原创 [Python3]Numpy数组转置的三种方法T、transpose、swapaxes

天下难事，必作于易；天下大事，必作于细——老子Numpy是高性能科学计算和数据分析的基础包，里面包含了许多对数组进行快速运算的标准数学函数，掌握这些方法，能摆脱数据处理时的循环。1.首先数组转置（T）创建二维数组data如下：进行矩阵运算时，经常要用数组转置，比如计算矩阵内积X^T X.这时就需要利用数组转置，如下：2.轴对换之transpose对于高维数组，可以使用轴对换来对多...

2019-06-05 20:14:50 240515 2

空空如也

空空如也