自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(44)
  • 收藏
  • 关注

原创 【算法与数据结构】稀疏矩阵

稀疏矩阵的存储方式:1.三元组(行、列,值)2.行逻辑链接的顺序表3.十字链表

2019-06-28 18:32:20 733

原创 【Windows XP】下载地址及产品密钥

这次需要在虚拟机中装XP系统,找了好多产品密钥都是不好用的,最后终于找到合适的了,迫不及待的分享。1.XP系统下载http://msdn.itellyou.cn/用迅雷下载Windows XP Professional with Service Pack 3 (x86) - CD VL (Chinese-Simplified)下载下来后的名字是zh-hans_windows_xp_prof...

2019-06-26 10:22:15 26723 15

原创 【算法与数据结构】三、循环队列

FIFO(先进先出)rear:队尾front:对头N:队长操作:push:r=(r+1)%Npop:f=(f+1)%Nfull:(r+1)%N=fempty:f=rlength:(r-f+N)%N

2019-06-25 19:45:47 669

原创 【UltraISO】中文破解版

下载链接:https://cn.ultraiso.net/uiso9_cn.exe简体中文版专用: 注册名:Guanjiu 注册码:A06C-83A7-701D-6CFC多国语言版专用: 注册名: Home 注册码: 4BA9-0D54-214A-C938...

2019-06-25 14:25:16 63463 36

原创 【Hadoop】慢慢自学

分布式存储、分布式技术(MapReduce)批处理:MapReduce、Spark流计算:Storm等图计算:Pregel等查询分析计算:Hive等云计算:解决分布式存储和分布式技术物联网:感知层、网络层、处理层、应用层...

2019-06-22 22:30:03 293

原创 【面试总结】2019年找工作面试题总结(数据相关方向)

【字节跳动】大数据岗位面试题:二叉树序列化与反序列化进程和线程定义,公用什么列表两个元素和递归思想:n的全排列Hadoop:Map和Reduce

2019-06-22 22:28:49 519

原创 【算法与数据结构】Python实现十三大查找和排序算法

顺序查找:按照列表顺序挨个对比是否为目标值,知道找到,时间复杂度O(N)二分查找:列表是顺序列表,每次从中间值开始搜索,筛除一般,时间复杂度O(logN)Hash查找:根据索引直接查找,时间复杂度为O(1)问题:Hash查找会出现冲突,解决方法线性探测法或其他方法冒泡排序:每次比较临近两个值,互换位置,每次循环完最大值到最后位置短冒泡排序:冒泡排序的改进选择排序:冒泡排序的改进,减少交...

2019-06-22 22:24:21 1149

原创 【Python】递归实现n的全排列

这是面试字节跳动的大数据岗位时候面试官给的一个题目,就是输出n个数的全排列。当n=1是,perm(1)= [[1]]当n=2是,对于perm(1)里面的每个子list,n可以在list的第0个位置到最后一个位置,这里perm(1)里只有一个子list [1],所以perm(2)= [[2,1],[1,2]]当n=3时,perm(2)的子list有[2,1]和[1,2],对于子list为[2...

2019-06-22 19:09:20 4625 2

原创 【Python】四种命名方式

object:公用方法_object:半保护_ _object:全保护_ object _:内建方法

2019-06-22 16:14:12 1029

原创 【Python】pandas的describe参数详解

pandas的describe可以用来展示数据的一些描述性统计信息,因此经常用到。describe的官网参数如下图:使用实例:df = pd.DataFrame(data={ 'A':list('abaacdadaf'), 'B':[2,4,6,3,6,2,5,8,0,2]})percentiles:设置输出的百分位数,默认为[.25,.5,。75],返回第25,第50...

2019-06-22 15:41:39 34959 5

原创 【Python】浅拷贝、深拷贝

a = list(…)b = a 复制,a变则b变c = copy.copy(a)浅拷贝,只拷贝父对象,不拷贝父对象中的子对象,a的子对象变则c变,a的父对象变c不变d=copy.deepcopy© 深拷贝,完全拷贝,完全独立于原对象,a变d也不变...

2019-06-22 14:40:42 118

转载 【Python】pickle包的dump函数和load函数

pickle包的dump函数和load函数分别实现了数据的序列化和反序列化。一、dump()方法pickle.dump(obj, file, [,protocol])注释:序列化对象,将对象obj保存到文件file中去。参数protocol是序列化模式,默认是0(ASCII协议,表示以文本的形式进行序列化),protocol的值还可以是1和2(1和2表示以二进制的形式进行序列化。其中,1是老...

2019-06-19 11:27:06 1735

原创 【Python】图形交互界面GUI之tkinter各大控件详解

from tkinter import *window = Tk()#创建一个窗口window.title('第一个窗体')#添加标题

2019-06-18 10:15:35 11104 6

原创 【Python】DataFrame使用drop_duplicates()函数去重(不)保留重复值,取重复值

摘要在进行数据分析时,我们经常需要对DataFrame去重,但有时候也会需要只保留重复值。这里就简单的介绍一下对于DataFrame去重和取重复值的操作。创建DataFrame这里首先创建一个包含一行重复值的DataFrame。DataFrame去重,可以选择是否保留重复值,默认是保留重复值,想要不保留重复值的话直接设置参数keep为False即可。3.取DataFra...

2019-06-06 12:35:14 30531 1

原创 【Python】删除DataFrame某行或某列

摘要在进行数据分析操作时,经常只需要选取我们需要的行,或者列,本章就讲一下删除行列的操作。从本文你也可以知道drop函数的axis参数0和1分别代表列和行。1.创建DataFrame首先创建一个简单的DataFrame2.删除DataFrame的’bb’行直接采用drop函数即可,设置参数axis=0. 参数axis为0表示在0轴(列)上搜索名字为bb的对象,然后删除对象bb对应的行。...

2019-06-06 12:34:57 70681 4

原创 【Python3】DataFrame重命名列名

摘要简单介绍一下DataFrame重命名列名的两种方法。有下面DataFrame。1.使用columns()重命名2.使用rename方法重命名,这个方法在你只想改部分列名时十分好用,默认是使用新的DataFrame,可以自己选择参数inplace为True在原DataFrame上更改。欢迎关注微信公众号:516数据工作室...

2019-06-06 12:34:43 62957

原创 【Python】字符串和datetime相互转换

摘要时间序列(time series)数据是一种重要的结构化数据形式,应用于多个领域,包括金融学、经济学、生态学、神经科学、物理学等。在多个时间点观察或测量到的任何事物都可以形成一段时间序列。在进行时间序列问题分析时,通常需要将字符串和datetime类型相互转换,本文分享他们之间相互转换的集中常用方法(主要用到的库有datetime、pandas以及dateutil)。(一)datetime...

2019-06-06 12:34:26 14904

原创 【Python】保留n位小数

使用Python数据处理时,经常要对数据保留几位小数:eg:对x保留两位小数:round(x,2)

2019-06-06 12:33:52 10814 3

原创 【R语言】清空工作空间

查看工作空间ls()清空工作空间rm(list=ls())我们下次再见,如果还有下次的话!!!欢迎关注微信公众号:516数据工作室

2019-06-06 12:32:47 30443

原创 【R语言】时间序列单位根检验

扩展包:library(tseries)单位根检验:adf.test()eg:一般p<0.5即可我们下次再见,如果还有下次的话!!!欢迎关注微信公众号:516数据工作室

2019-06-06 12:32:30 24321 6

原创 【Python】关联规则实例

这是最近找机器学习实习的一个笔试题:看到这个题的时候第一想法就是用关联规则(Apriori算法)来实现。关联规则最重要的就是支持度Support和置信度Confidence。支持度的计算方法:#下面式中X∩Y表示X和Y同时发生的次数,N表示总事物数support(X->Y) = X∩Y/N置信度的计算方法:confidence(X->Y) = support(X-&g...

2019-06-06 12:32:11 5572

原创 【Python】DataFrame的列标准化

这里分享DataFrame的列标准化以及对DataFrame分组之后列标准化。DataFrame的列标准化import pandas as pdimport numpy as npdf = pd.DataFrame(data={ 'A':[1,1,2,2,2], 'B':[2,3,4,6,5], 'C':[3,8,5,12,6]})dfdf.apply...

2019-06-06 12:30:58 20390

原创 【Python】SVM实现数据分类案例(包含参数优化)

这是一篇机器学习岗位的笔试题,题目大概就是:给定了数据特征和数据标签(二分类),使用机器学习算法对数据进行分类,并优化两个重要的参数,计算AUC指标,画出参数优化和AUC指标变化图。本文选择的是SVM(支持向量机)来实现这一过程,SVM是非常强大、灵活的有监督学习的算法,既可以用于分类,也可以用于回归。实现过程:1.导入需要的包import pandas as pdimport num...

2019-06-06 12:29:25 26460 5

原创 【SAS】数据类型转换

数值型转成字符型:put函数字符型转成数值型:input函数#思路:#首先创建一个新的数据表#然后将要更改数据类型的列Column1#复制到新列Column2#然后删除列Column1#最后将列Column2的列名再改为Column1Data TableB; set TableA; Column2 = put(Column1,$10.); drop Column1; ren...

2019-06-06 12:29:03 7464

原创 [Python3]时间戳与时间的相互转换

摘要在用Python处理数据时,可能有时候会需要将时间转换成时间戳,或者说将时间戳转换成时间,这里分享一下时间戳与时间的相互转换的方法。在Python里面处理时间相关问题,基本上用的包就是time和datetime两个,这里也是用这两个包实现时间戳和时间的相互转换。导入需要的包时间戳转换成时间在时间戳转换成时间的时候要注意,你的时间戳是秒级别的还是毫秒级别的,如果是毫秒级别的你需要除1...

2019-06-06 08:44:40 27552

原创 【Python】matplotlib画图设置颜色、标记和线型(系列2)

摘要上一节讲了如何设置标题、轴标签、刻度、刻度标签。本节讲解设置颜色、标记和线型。1.画基础图import matplotlib.pyplot as pltfrom numpy.random import randnplt.plot(randn(30).cumsum())2.设置颜色(color参数)k:blackb:blueg:greenr:redc:cyan(青色)...

2019-06-06 08:43:52 27041

原创 【Python】matplotlib画图设置标题、轴标签、刻度、刻度标签(系列1)

摘要信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib和基于它的库。导入包创建图import matplotlib.pyplot as pltimport...

2019-06-06 08:43:38 63219 5

原创 【R语言】package '***' is not available(for R version 3.4.3)

今天使用panelvar包时,显示我的R版本太低,报警告:package 'panelvar' is not available(for R version 3.4.3)对于此类问题解决方法,可以使用以下语句来解决:source("http://bioconductor.org/biocLite.R")biocLite("包名")首先下载BiocInstaller包,然后通过Bioc...

2019-06-06 08:42:34 19594

原创 [Python3]pandas.merge用法详解

摘要数据分析与建模的时候大部分时间在数据准备上,包括对数据的加载、清理、转换以及重塑。pandas提供了一组高级的、灵活的、高效的核心函数,能够轻松的将数据规整化。这节主要对pandas合并数据集的merge函数进行详解。(用过SQL或其他关系型数据库的可能会对这个方法比较熟悉。)1.merge函数的参数一览表2.创建两个DataFrame3.pd.merge()方法设置连接字段。...

2019-06-06 08:42:18 170469 6

原创 【Python】分组统计GroupBy技术详解

摘要进行数据分析时,GroupBy分组统计是非常常用的操作,也是十分重要的操作之一。基本上大部分的数据分析都会用到该操作,本文将对Python的GroupBy分组统计操作进行讲解。1.GroupBy过程首先看看分组聚合的过程,主要包括拆分(split)、应用(Apply)和合并(Combine)2.创建DataFrameimport pandas as pdipl_data = {...

2019-06-06 08:41:58 45126 1

原创 [Python3]pandas.concat用法详解

前面给大家分享了pandas.merge用法详解,这节分享pandas数据合并处理的姊妹篇,pandas.concat用法详解,参考利用Python进行数据分析与pandas官网进行整理。

2019-06-06 08:41:34 58748 4

原创 【Python】np.where()替换缺失值

使用Python做数据分析时经常需要替换缺失值。 1. np.where(条件,x,y) np.where函数的结果是,如果“条件”为真,则x,否则y。 2.如下 import pandas as pdimport numpy as npdf = pd.DataFrame(data={ 'A':[1,1,np.nan,2], 'B':[2,np.nan,4,5], ...

2019-06-06 08:41:18 6272

原创 【SQL】排名函数ROW_NUMBER、RANK、DENSE_RANK和NTILE讲解

SQL中四大排名为:ROW_NUMBER、RANK、DENSE_RANK和NTILE。其中用法为:SELECT ROW_NUMBER()|RANK()|DENSE_RANK()|NTILE(n) OVER( ORDER BY 列名 [DESC] ) AS NewColumn,* FROM TABLE ......注意:1.你可能会注意到NTILE函数中带有参数n,这个函数用来对...

2019-06-06 08:40:58 1225

原创 【Python】turtle库常用命令

常用绘图命令#向当前画笔方向移动d像素长度turtle.forward(d)#向当前画笔相反方向移动d像素长度turtle.backward(d)#顺时针移动degree度turtle.right(degree)#逆时针移动degree度turtle.left(degree)颜色设置#设置画笔颜色pencolor=color1turtle.pencolor(color...

2019-06-06 08:40:23 5310

原创 【Python】解析PDF文档文本和表格内容的四大方法介绍

很多文件为了安全都会存成PDF格式,比如有的论文、技术文档、书籍等等,这给程序读取这些文档内容带来了很多麻烦。Python目前解析PDF的扩展包有很多,本文将对比介绍PyPDF2、pdfplumber、pdfminer3k以及Camelot,告诉你哪个是好用的PDF解析工具。本文使用的案例PDF文档下载链接:链接:https://pan.baidu.com/s/1zH7vY47AqBYKM0X...

2019-06-05 20:16:39 14511 3

原创 【Python】文本情感分析及绘制词云

这篇文章主要分享了使用Python来对文本数据进行情感分析以及绘制词云。主要步骤包括:1.文本预处理2.文本分词3.去除停用词(这里设置为单个词和一些常见的停用词)4.词频统计5.情感分析6.绘制词云首先导入所需的程序办和文本数据:#带入程序包import pandas as pdimport reimport jiebaimport collectionsfrom w...

2019-06-05 20:16:18 13237 18

原创 R语言实现PVAR(面板向量自回归模型)

这次研究了一个问题,要用PVAR(面板向量自回归模型),在网上找的教程基本上都是Stata或者Eviews的教程,而鲜有R实现PVAR的教程,这里总结分享一下我摸索的PVAR用R实现的整个过程。...

2019-06-05 20:16:00 19526 34

原创 【Python】DataFrame一列拆成多列以及一行拆成多行

摘要在进行数据分析时,我们经常需要把DataFrame的一列拆成多列或者根据某列把一行拆成多行,这篇文章主要讲解这两个目标的实现。读取数据将City列转成多列(以‘|’为分隔符)这里使用匿名函数lambda来讲City列拆成两列。3.将DataFrame一行拆成多行(以‘|’为分隔符)方法一:在刚刚得到的DataFrame基础上操作,如下图所以,可以明显看到我们按照City列将D...

2019-06-05 20:15:44 79989 15

原创 Python的DataFrame切片大全(包含多重索引)

摘要这篇主要讲解如何对pandas的DataFrame进行切片,包括取某行、某列、某几行、某几列、以及多重索引的取数方法。导入包并构建DataFrame二维数据取DataFrame的某列三种方法取DataFrame某几列的两种方法取DataFrame的某行三种方法取DataFrame的某几行三种方法取DataFrame的某特定位置元素的方法...

2019-06-05 20:15:17 79544 7

原创 [Python3]Numpy数组转置的三种方法T、transpose、swapaxes

天下难事,必作于易;天下大事,必作于细——老子Numpy是高性能科学计算和数据分析的基础包,里面包含了许多对数组进行快速运算的标准数学函数,掌握这些方法,能摆脱数据处理时的循环。1.首先数组转置(T)创建二维数组data如下:进行矩阵运算时,经常要用数组转置,比如计算矩阵内积X^T X.这时就需要利用数组转置,如下:2.轴对换之transpose对于高维数组,可以使用轴对换来对多...

2019-06-05 20:14:50 240515 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除