berry2q-CSDN博客

原创方法要求返回List＜List＜String＞＞，如何返回实例对象

return new ArrayList<List>();如果List res = new ArrayList();这个是没问题的，因为父类引用可以指向子类对象如果List<List> res = new ArrayList<ArrayList>(); 这个报错，因为要求外层List中保存的值时List，而你给的是ArrayList...

2021-08-22 22:41:22 797

原创 Kafka

第一章 Kafka概述1.1 定义Kafka是一个分布式的基于发布/订阅模式的消息队列（Message Queue），主要应用于大数据实时处理领域。1.2 消息队列1.2.1 应用场景传统消息队列有同步处理和异步处理。同步处理是说当流程走完后才能向用户返回结果；异步处理是某一流程结束后，就可以向用户返回结果，后续步骤可以在向用户返回结果后接着执行。使用消息队列(MQ)的好处：1）解耦合MQ两侧的内容可以修改和扩展，只要保持接口不变2）可恢复性系统的一部分组件失效时，不会影响到整个系统。

2020-12-24 15:20:45 286

转载 python 一个.py文件如何调用另一个.py文件中的类和函数

https://blog.csdn.net/winycg/article/details/78512300?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2allfirst_rank_v2~rank_v25-1-78512300.nonecase

2020-07-29 12:36:42 928

转载 python 使用 with open（） as 读写文件

https://blog.csdn.net/xrinosvip/article/details/82019844?utm_medium=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.compare&depth_1-utm_source=distribute.pc_relevant_t0.none-task-blog-BlogCommendFromMachineLearnPai2-1.compare

2020-07-23 14:14:07 644

原创 python的hmac模块

message = b'Hello, world!'key = b'secret'h = hmac.new(key, message, digestmod='MD5')# 如果消息很长，可以多次调用h.update(msg)print h.hexdigest()其中的key是我们自己生成的，message是要加密的信息，如果消息太长，后续可以通过h.update(msg)来多次添加要加密的信息，加密模式默认为md5。注意：key和message需要传入bytes类型的数据。import ha

2020-07-22 09:12:15 3183

原创 python实现md5和sha1加密

python的内置库hashlib主要提供 SHA1, SHA224, SHA256, SHA384, SHA512 ，MD5 算法md5加密import hashlibdata = 'test'data2 = '1324tnef微软'hash_md5 = hashlib.md5(data.encode())hash_md52 = hashlib.md5(data2.encode())print(hash_md5.hexdigest())print(hash_md52.hexdigest

2020-07-20 18:04:33 570

原创 pandas的read_csv()读入报错

在windows上文件路径要用//，或者在文件路径前加pd.read_csv(r'filepath')要是还报错编码错误，应该再加上encoding参数pd.read_csv('filepath', encoding='utf-8')

2020-07-15 14:01:29 296

原创 sklearn处理缺失值

导入包：from sklearn.impute import SampleImpute先将一列数据初始化为一个二维的：data['Age'] = data.loc[:, 'Age'].values.reshape(-1, 1)开始填补缺失值：imp_mean = SimpleImpute() # 默认用0填补imp_median = SimpleImpute(strategy='median') #中位数填补imp_0 = SimpleImpute(strategy='constant',

2020-07-15 13:27:03 850

原创 Pandas series.str.get 获取字符列切片

作者：grug350链接：https://www.jianshu.com/p/bf267e3be9ca来源：简书著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

2020-07-14 08:24:55 1084

原创 Series中是list获得值

若Series中的值是list，Series.str.get() 得到Series中的第几个值

2020-07-13 18:04:15 663 2

原创 DataFrame.merge和DataFrame.concat

pandas.DataFrame.mergeDataFrame.merge(right, how=‘inner’, on=None, left_on=None, right_on=None, left_index=False, right_index=False, sort=False, suffixes=(’_x’, ‘_y’), copy=True, indicator=False)[source]right:右边的dfhow：连接方式。Inner outer left rightleft_on

2020-07-13 16:17:01 228

转载 pandas默认输出行列显示不完全解决方法

#显示所有列pd.set_option(‘display.max_columns’, None)#显示所有行pd.set_option(‘display.max_rows’, None)#设置value的显示长度为100，默认为50pd.set_option(‘max_colwidth’,100)————————————————版权声明：本文为CSDN博主「立志成为摄影师的健身虾」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://bl

2020-07-13 11:06:14 758

原创数据清洗步骤及常用的方法

流程确定数据分析目的-获取数据-清洗数据-探索数据-建模分析-结果交流探索数据：对整个数据集有全面的认识，一边后续开展工作建模分析：常常用到机器学习、深度学习算法结果：使用报告、图表展示数据，将成果与他人分享脏数据：重复、残缺、错误数据、不符合规则的数据（噪声数据）分为数据的读写、数据的探索与描述、数据简单处理、重复值处理、缺失值处理、异常值处理、文本字符串的处理、时间格式序列的处理。除了前三个以外顺序可以调整。数据读写pd.read_csv()pd.read_excel()数据的探索与

2020-07-12 17:57:11 5109

原创 json中load和loads区别

json.dumps()将Python字典类型转换为json对象json.loads()将json对象转换为Python字典类型#!/usr/bin/python3 import json #Python 字典类型转换为 JSON 对象data1 = { 'no' : 1, 'name' : 'Runoob', 'url' : 'http://www.runoob.com'} json_str = json.dumps(data1)print ("Python

2020-07-12 15:29:50 469

原创 Requests get() post()

定义和使用requests.get(url, params={key: value}, args)get方法给特定的url发送一个GET请求参数详解：url：必须。请求urlparams：字典。list of tuples or bytes to send as a query string.Default Noneheadesr：Optional. A dictionary of HTTP headers to send to the specified url.Default None

2020-07-10 17:57:59 174

原创 pandas.to_csv()中文乱码问题

加入encoding=‘utf-8’后还是乱码df.to_csv('filename.csv', encoding='utf-8')加入utf-8_sig后正常显示df.to_csv('filename.csv', encoding='utf-8_sig')

2020-07-10 09:48:27 1716

转载 pandas to_datetime处理日期错误的数据日期转换报错的可以试试我这个方法

今天数据分析老师布置的作业给了一个数据文件其中有一个问题是让我们把字符串的时间转换为时间类型最后我使用了errors参数解决解决问题的过程如下：刚开始我看报错信息是有一个时间的天数超出月份所规定的天数这么长的错误心态有没有崩哈哈哈我刚开始心中一万只草泥马在翻腾注意最后提示信息然后我又加上了format结果错误变成这样了我还特意看了一下日历好么这个老师太坑了防不胜防啊居然把2018年的2月弄成了29天然后就各种搜看别人的博客结果看了好多没有人遇见这种

2020-07-10 00:24:44 1803

转载 pandas.to_datetime

https://blog.csdn.net/qq_39290225/article/details/98313743

2020-07-10 00:08:13 746

转载 pandas 分列（一）之split()

pandas 分列（一）之split()hhq2lcl 2018-12-06 17:55:51 3706 收藏 10分类专栏：数据清理版权一、函数详解split()左分列，rsplit()右分列df[‘A’].str.split（pat = None，n = -1，expand = False ）pat：str，要拆分的字符串或正则表达式。如果未指定，则拆分空格。n：int，默认-1；限制输出中的分割数。None，0和-1被解释为返回所有拆分。【就是当用于分列的依据符号在有多

2020-07-09 23:57:49 1587

原创 concat

pd.concat(objs, axis=0, join=‘outer’, join_axes=None, ignore_index=False,keys=None, levels=None, names=None, verify_integrity=False,copy=True) https://blog.csdn.net/zzpdbk/article/details/79232661

2020-07-09 23:35:10 149

原创 astype更改数据类型

df.dtypes 查看数据类型astype(dtype, copy=True, errors=‘raise’, **kwargs)errors: raise或ignore。其中raise表示允许引发异常，ignore表示抑制异常，默认为raisepd.to_numeric(arg, errors=‘raise’, downcast=None)将传入的参数转换为数值类型arg:表示要转换的数据，可以是list tuple Serieserrors:错误处理方式df.A.astype(int)

2020-07-09 23:21:11 646

原创异常值的处理

原理3西格玛准则，对一组数据计算处理后，可以得到一个置信区间，在此区间之外的部分应该被视为异常值。3西格玛：0.68-0.95-0.99。处理方法：箱线图上下两边出现的点视为异常值.Pandas中提供boxplot()方法绘制箱型图a)直接删除b) 使用前后两个边界值的均值替换c) 不处理d) 视为缺失值，利用缺失值的处理方法修正若要对异常值进行修改，使用pandas.DataFrame.replaceDataFrame.replace(self, to_replace=None, v

2020-07-09 23:11:59 1658

原创重复值处理duplicated()

重复值标记为True，否则标为False,默认后面出现的被标记为Trueduplicated(subset=None, keep='first')# subset：用于识别重复出现的列标签或列标签序列，默认识别所有的列标签# keep: 删除重复项并保留第一次出现的。取值可以为first last False# 默认不替代，原理同上drop_duplicated(subset=None, keep='first', inplace=False)重复值处理完后，index会有不连续，通过rei

2020-07-09 20:30:50 5662

原创空值和缺失值处理

fillna() 全局替换缺失值 NaN和None————————————————————————# 对指定列的缺失值进行填充fillna({'A':4, 'B':5})

2020-07-09 20:19:29 996

转载数据预处理：pandas类型转化astype

Python中和Pandas中数据类型对应关系如下：如果数据是纯净的数据，可以转化为数字astype基本也就是两种用作，数字转化为单纯字符串，单纯数字的字符串转化为数字，含有其他的非数字的字符串是不能通过astype进行转化的。需要引入其他的方法进行转化，也就有了下面的自定义函数方法自定义函数进行转化replace()方法去掉字符串里面的一些不想要的东西def convert_currency(var): """ convert the string number to a

2020-07-09 17:52:16 2250

原创生成Series索引并根据索引获取值，根据值获取索引

series = pd.Series()根据索引获取值series

2020-07-09 11:51:59 5128

原创 Jupyter Notebook报错：IOPub data rate exceededa

原因是文件太大，io报错。解决方式：jupyter notebook --generate-config，可以看到生成一个路径本地打开那个文件，使用文本编辑器打开我用的是atom找到这一行代码，将注释去掉，并把数值加大重启jupyter notebook即可...

2020-07-09 11:09:55 500

原创 DataFrame删除列

pandas.DataFrame.dropDataFrame.drop(self, labels=None, axis=0, index=None, columns=None, level=None, inplace=False, errors=‘raise’)[source]Drop specified labels from rows or columns.

2020-07-09 11:04:18 1457

转载 pandas读取csv文件指定表头

python读csv文件时指定行为表头或无表头·pd.read_csv()方法中header参数，默认为0，标签为0（即第1行）的行为表头。若设置为-1，则无表头。示例如下：（1）不设置header参数（默认）时：df1 = pd.read_csv(‘target.csv’,encoding=‘utf-8’)df1（2）header=1时：import pandas as pddf2 = pd.read_csv(‘target.csv’,encoding=‘utf-8’,header=1)

2020-07-09 01:26:18 11602

原创 tableau制作“2012年各国家电影产量”标靶图

题目：得到基础图首先将年代拖入筛选器中筛选出年代为2012年，并把【产地】拖入行，【计数】拖入列，得到如下图右键坐标轴，添加参考线3.设置线格式值设为常量，200.线格式设置为加粗，黑色设置参考分布结束...

2020-05-29 12:29:35 2480

转载 [Selenium]webdriver.until() TypeError: init() takes 2 positional arguments but 3 were given_解决方案

异常描述：执行以下代码element = WebDriverWait(driver,5,0.5).until(EC.presence_of_element_located(By.ID,“su”))，PyCharm出现异常提示TypeError: init() takes 2 positional arguments but 3 were given。大致意思：init()方法只取2个参数，但实际提供了3个参数。问题分析：查看expected conditions.py模块的代码，其中找到 prese

2020-05-25 23:04:41 1586 1

空空如也

空空如也