自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 收藏
  • 关注

原创 方法要求返回List<List<String>>,如何返回实例对象

return new ArrayList<List>();如果List res = new ArrayList();这个是没问题的,因为父类引用可以指向子类对象如果List<List> res = new ArrayList<ArrayList>(); 这个报错,因为要求外层List中保存的值时List,而你给的是ArrayList...

2021-08-22 22:41:22 690

原创 Kafka

第一章 Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域。1.2 消息队列1.2.1 应用场景传统消息队列有同步处理和异步处理。同步处理是说当流程走完后才能向用户返回结果;异步处理是某一流程结束后,就可以向用户返回结果,后续步骤可以在向用户返回结果后接着执行。使用消息队列(MQ)的好处:1)解耦合MQ两侧的内容可以修改和扩展,只要保持接口不变2)可恢复性系统的一部分组件失效时,不会影响到整个系统。

2020-12-24 15:20:45 220

转载 python 一个.py文件如何调用另一个.py文件中的类和函数

https://blog.csdn.net/winycg/article/details/78512300?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2allfirst_rank_v2~rank_v25-1-78512300.nonecase

2020-07-29 12:36:42 869

转载 python 使用 with open() as 读写文件

https://blog.csdn.net/xrinosvip/article/details/82019844?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.compare&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.compare

2020-07-23 14:14:07 575

原创 python的hmac模块

message = b'Hello, world!'key = b'secret'h = hmac.new(key, message, digestmod='MD5')# 如果消息很长,可以多次调用h.update(msg)print h.hexdigest()其中的key是我们自己生成的,message是要加密的信息,如果消息太长,后续可以通过h.update(msg)来多次添加要加密的信息,加密模式默认为md5。注意:key和message需要传入bytes类型的数据。import ha

2020-07-22 09:12:15 3102

原创 python实现md5和sha1加密

python的内置库hashlib主要提供 SHA1, SHA224, SHA256, SHA384, SHA512 ,MD5 算法md5加密import hashlibdata = 'test'data2 = '1324tnef微软'hash_md5 = hashlib.md5(data.encode())hash_md52 = hashlib.md5(data2.encode())print(hash_md5.hexdigest())print(hash_md52.hexdigest

2020-07-20 18:04:33 514

原创 pandas的read_csv()读入报错

在windows上文件路径要用//,或者在文件路径前加pd.read_csv(r'filepath')要是还报错编码错误,应该再加上encoding参数pd.read_csv('filepath', encoding='utf-8')

2020-07-15 14:01:29 239

原创 sklearn处理缺失值

导入包:from sklearn.impute import SampleImpute先将一列数据初始化为一个二维的:data['Age'] = data.loc[:, 'Age'].values.reshape(-1, 1)开始填补缺失值:imp_mean = SimpleImpute() # 默认用0填补imp_median = SimpleImpute(strategy='median') #中位数填补imp_0 = SimpleImpute(strategy='constant',

2020-07-15 13:27:03 776

原创 Pandas series.str.get 获取字符列切片

作者:grug350链接:https://www.jianshu.com/p/bf267e3be9ca来源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

2020-07-14 08:24:55 1006

原创 Series中是list获得值

若Series中的值是list,Series.str.get() 得到Series中的第几个值

2020-07-13 18:04:15 584 2

原创 DataFrame.merge和DataFrame.concat

pandas.DataFrame.mergeDataFrame.merge(right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=(’_x’, ‘_y’), copy=True, indicator=False)[source]right:右边的dfhow:连接方式。Inner outer left rightleft_on

2020-07-13 16:17:01 179

转载 pandas默认输出行列显示不完全解决方法

#显示所有列pd.set_option(‘display.max_columns’, None)#显示所有行pd.set_option(‘display.max_rows’, None)#设置value的显示长度为100,默认为50pd.set_option(‘max_colwidth’,100)————————————————版权声明:本文为CSDN博主「立志成为摄影师的健身虾」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://bl

2020-07-13 11:06:14 693

原创 数据清洗步骤及常用的方法

流程确定数据分析目的-获取数据-清洗数据-探索数据-建模分析-结果交流探索数据:对整个数据集有全面的认识,一边后续开展工作建模分析:常常用到机器学习、深度学习算法结果:使用报告、图表展示数据,将成果与他人分享脏数据:重复、残缺、错误数据、不符合规则的数据(噪声数据)分为数据的读写、数据的探索与描述、数据简单处理、重复值处理、缺失值处理、异常值处理、文本字符串的处理、时间格式序列的处理。除了前三个以外顺序可以调整。数据读写pd.read_csv()pd.read_excel()数据的探索与

2020-07-12 17:57:11 4934

原创 json中load和loads区别

json.dumps()将Python字典类型转换为json对象json.loads()将json对象转换为Python字典类型#!/usr/bin/python3 import json #Python 字典类型转换为 JSON 对象data1 = { 'no' : 1, 'name' : 'Runoob', 'url' : 'http://www.runoob.com'} json_str = json.dumps(data1)print ("Python

2020-07-12 15:29:50 386

原创 Requests get() post()

定义和使用requests.get(url, params={key: value}, args)get方法给特定的url发送一个GET请求参数详解:url:必须。请求urlparams:字典。list of tuples or bytes to send as a query string.Default Noneheadesr:Optional. A dictionary of HTTP headers to send to the specified url.Default None

2020-07-10 17:57:59 133

原创 pandas.to_csv()中文乱码问题

加入encoding=‘utf-8’后还是乱码df.to_csv('filename.csv', encoding='utf-8')加入utf-8_sig后正常显示df.to_csv('filename.csv', encoding='utf-8_sig')

2020-07-10 09:48:27 1613

转载 pandas to_datetime处理日期错误的数据 日期转换报错的可以试试我这个方法

今天数据分析老师布置的作业 给了一个数据文件 其中有一个问题是让我们把字符串的时间转换为时间类型最后我使用了errors参数解决解决问题的过程如下 :刚开始 我看报错信息是有一个时间的天数超出月份所规定的天数这么长的错误心态有没有崩 哈哈哈 我刚开始心中一万只草泥马在翻腾注意最后提示信息然后 我又加上了format结果错误变成这样了我还特意看了一下日历好么 这个老师太坑了  防不胜防啊 居然把2018年的2月弄成了29天然后就各种搜 看别人的博客 结果看了好多 没有人遇见这种

2020-07-10 00:24:44 1454

转载 pandas.to_datetime

https://blog.csdn.net/qq_39290225/article/details/98313743

2020-07-10 00:08:13 697

转载 pandas 分列(一)之split()

pandas 分列(一)之split()hhq2lcl 2018-12-06 17:55:51 3706 收藏 10分类专栏: 数据清理版权一、函数详解split()左分列,rsplit()右分列df[‘A’].str.split(pat = None,n = -1,expand = False )pat:str,要拆分的字符串或正则表达式。如果未指定,则拆分空格。n:int,默认-1;限制输出中的分割数。None,0和-1被解释为返回所有拆分。【就是当用于分列的依据符号在有多

2020-07-09 23:57:49 1480

原创 concat

pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False,copy=True) https://blog.csdn.net/zzpdbk/article/details/79232661

2020-07-09 23:35:10 98

原创 astype更改数据类型

df.dtypes 查看数据类型astype(dtype, copy=True, errors=‘raise’, **kwargs)errors: raise或ignore。其中raise表示允许引发异常,ignore表示抑制异常,默认为raisepd.to_numeric(arg, errors=‘raise’, downcast=None)将传入的参数转换为数值类型arg:表示要转换的数据,可以是list tuple Serieserrors:错误处理方式df.A.astype(int)

2020-07-09 23:21:11 588

原创 异常值的处理

原理3西格玛准则,对一组数据计算处理后,可以得到一个置信区间,在此区间之外的部分应该被视为异常值。3西格玛:0.68-0.95-0.99。处理方法:箱线图上下两边出现的点视为异常值.Pandas中提供boxplot()方法绘制箱型图a)直接删除b) 使用前后两个边界值的均值替换c) 不处理d) 视为缺失值,利用缺失值的处理方法修正若要对异常值进行修改,使用pandas.DataFrame.replaceDataFrame.replace(self, to_replace=None, v

2020-07-09 23:11:59 1391

原创 重复值处理duplicated()

重复值标记为True,否则标为False,默认后面出现的被标记为Trueduplicated(subset=None, keep='first')# subset:用于识别重复出现的列标签或列标签序列,默认识别所有的列标签# keep: 删除重复项并保留第一次出现的。取值可以为first last False# 默认不替代,原理同上drop_duplicated(subset=None, keep='first', inplace=False)重复值处理完后,index会有不连续,通过rei

2020-07-09 20:30:50 5503

原创 空值和缺失值处理

fillna() 全局替换缺失值 NaN和None————————————————————————# 对指定列的缺失值进行填充fillna({'A':4, 'B':5})

2020-07-09 20:19:29 903

转载 数据预处理:pandas类型转化astype

Python中和Pandas中数据类型对应关系如下:如果数据是纯净的数据,可以转化为数字astype基本也就是两种用作,数字转化为单纯字符串,单纯数字的字符串转化为数字,含有其他的非数字的字符串是不能通过astype进行转化的。需要引入其他的方法进行转化,也就有了下面的自定义函数方法自定义函数进行转化replace()方法去掉字符串里面的一些不想要的东西def convert_currency(var): """ convert the string number to a

2020-07-09 17:52:16 2148

原创 生成Series索引并根据索引获取值,根据值获取索引

series = pd.Series()根据索引获取值series

2020-07-09 11:51:59 4999

原创 Jupyter Notebook报错:IOPub data rate exceededa

原因是文件太大,io报错。解决方式:jupyter notebook --generate-config,可以看到生成一个路径本地打开那个文件,使用文本编辑器打开 我用的是atom找到这一行代码,将注释去掉,并把数值加大重启jupyter notebook即可...

2020-07-09 11:09:55 450

原创 DataFrame删除列

pandas.DataFrame.dropDataFrame.drop(self, labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors=‘raise’)[source]Drop specified labels from rows or columns.

2020-07-09 11:04:18 1393

转载 pandas读取csv文件指定表头

python读csv文件时指定行为表头或无表头·pd.read_csv()方法中header参数,默认为0,标签为0(即第1行)的行为表头。若设置为-1,则无表头。示例如下:(1)不设置header参数(默认)时:df1 = pd.read_csv(‘target.csv’,encoding=‘utf-8’)df1(2)header=1时:import pandas as pddf2 = pd.read_csv(‘target.csv’,encoding=‘utf-8’,header=1)

2020-07-09 01:26:18 11191

原创 tableau制作“2012年各国家电影产量”标靶图

题目:得到基础图首先将年代拖入筛选器中筛选出年代为2012年,并把【产地】拖入行,【计数】拖入列,得到如下图右键坐标轴,添加参考线3.设置线格式值设为常量,200.线格式设置为加粗,黑色设置参考分布结束...

2020-05-29 12:29:35 2234

转载 [Selenium]webdriver.until() TypeError: __init__() takes 2 positional arguments but 3 were given_解决方案

异常描述:执行以下代码element = WebDriverWait(driver,5,0.5).until(EC.presence_of_element_located(By.ID,“su”)),PyCharm出现异常提示TypeError: init() takes 2 positional arguments but 3 were given。大致意思:init()方法只取2个参数,但实际提供了3个参数。问题分析:查看expected conditions.py模块的代码,其中找到 prese

2020-05-25 23:04:41 1332 1

原创 Mac查看本机python安装地址

一行命令解决which python3或者 which python

2020-05-25 12:11:40 450

原创 pandas检查行、列是否有缺失值

对于dataframe:统计行、列是否有缺失值:

2020-03-17 12:20:24 7405

原创 pandas中apply与applymap

applymap用于DataFrame中的元素级别,就是对所有元素应用某个方法;apply用于Series或DataFrame的列。比如:applymap():# 成绩转换为字母表示grades_df = pd.DataFrame( data={'exam1': [43, 81, 78, 75, 89, 70, 91, 65, 98, 87], 'exam2': ...

2020-03-09 21:47:06 168

原创 Pandas的shift函数

Pandas的shift函数可以将DataFrame移动指定的位数。比如,period参数指定移动的位数,axis参数指定轴向import pandas as pddf = pd.DataFrame({'a':[1,2,3], 'b':[4,5,6], 'c':[7,8,9]})df.shift(period=1) # 将df整体移动一位...

2020-03-09 20:37:21 2422

原创 ubuntu不小心忘记开机密码

进入Advanced option for ubuntu界面,选取root - Drop to root shell prompt 下面要输入root用户密码,我也不清楚我输的啥,稀里糊涂就进去了,应该是重设了下root的密码,然后输的就是重设的密码。这时候出现了root@ # 这时就可以输入指令了,(不需要加sudo命令。现在已经是超级管理员了 )1。把硬盘挂载成可读写模式mount -

2017-12-20 23:24:50 760

原创 ubuntu第二、三天(时光穿梭机)--学习资源来自廖雪峰博客

版本回退 当文件修改到一定程度的时候,可以commit一下提交到仓库。一旦你把文件弄乱也可以恢复到最近的版本。 使用命令git log查看最近提交的版本,比如$ git logcommit 2c1479bede14ee4be0b5390b6a8fe58c5ab46f46Author: ubuntuYGQ <zjumydr@gmail.com>Date: Tue Dec 19 11:20

2017-12-19 22:11:32 254

原创 Ubuntu下学习git第二天--仓库操作

先对本机的readme.txt文件修改,比如添加一个“distribution”。用'git status'命令查看仓库当前状态,显示On branch masterChanges not staged for commit: (use "git add/rm <file>..." to update what will be committed) (use "git checkout

2017-12-19 10:22:50 243

原创 Ubuntu下学习git第一天--安装、创建仓库、添加文件

安装git创建仓库

2017-12-18 22:50:03 2193

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除