小猪课堂-CSDN博客

原创 pyspark基础操作

最近在公司经常会用到一些spark,一般都是使用python进行处理,一开始使用还是有点陌生,看了几篇往上的文章也简单的操作了几天,通过写这篇文章再去巩固一下基础知识~持续更新提示(tips)这里要说一下spark中每一个环节都是分开的;spark函数使用的是驼峰命名法;代码写在一行上,如果过长换行必须有"",否则会报错(此坑已踩!!);基础查询selectwhere ->> where/filtergroup by ->> groupbycase when函

2021-08-08 23:50:07 1271

原创【MySQL/Hive】日期转成字符串与日期转成int以及之间的相互转换_手把手教学

经常会遇到日期转成字符串，有的字符串带‘-’有的没有，有‘-’的可以直接使用to_date()函数可以实现自动转换，但是有时候我们比较的日期一个是带‘-’的，一个是不带‘-’的，所以需要拉齐，使用以下代码可以快速帮助你应对不用的格式类型的数据，希望对你有帮助。时间转换】： 2021-05-01 转变成20210501year(a.event_time)*10000+month(a.event_time)*100+day(a.event_time)【时间转换】： 20210501 转变成 2021-0

2021-05-11 17:24:35 2420

原创【Python数据清洗】日期时间、时间序列大汇总

虽然学代码很久了，但是每次遇到时间上的问题的时候都会犯难，最近针对几个痛点和难点做了一些简单的梳理，来就解决日常代码中的一些常见的需求。------以上时废话，以下是有用的东西-------------------------------------------------------主要分为三类时间戳时间间隔与从周期表时间增量或持续时间我们从Python标准库、numpy到pandas的顺序来梳理。一、Python标准库：原生Python的日期与时间工具：datetime和dateut

2021-04-13 08:35:55 2206 2

原创【Python数据清洗】pivot_table 与 pivot 的区别——手把手系列

最近在处理数据时会使用到将行转列或者将列转行的情况，看了很多大神的教程一直提到一个pivot的函数，自己在之前看书的时候有看过一个类似的函数就是pivot_table的函数，出于好奇就写一个这两个函数的区别吧。------以上时废话，以下是有用的东西-------------------------------------------------------首先看一下这两个函数的超参：pivot: 通过指定的索引和列对数据进行重塑，无法聚合。法一：pd.pivot( )pd.pivot(

2021-04-07 14:53:17 2844 2

原创【Python数据清洗】np.argmax()函数用法解析

简介numpy.argmax(array, axis) 用于返回一个numpy数组中最大值的索引值。当一组中同时出现几个最大值时，返回第一个最大值的索引值。在运算时，相当于剥掉一层中括号，返回一个数组，分为一维和多维。一维数组剥掉一层中括号之后就成了一个索引值，是一个数，而n维数组剥掉一层中括号后，会返回一个 n-1 维数组，而剥掉哪一层中括号，取决于axis的取值。n维的数组的 axis 可以取值从 0 到 n-1，其对应的括号层数为从最外层向内递进，详见后文。一、一维数组的用法one_di.

2021-04-07 13:52:05 3410 2

原创【Python数据清洗】将数据类型转换成分类型——category

将数据转换成category类型h_total_data['country_name'].astype('category')----------------分享完毕，解决请【点赞】哈 ------------------------Address：北京Date：20210305喜欢可以关注【小猪课堂】公众号了解更多内容...

2021-03-05 15:03:38 1828

原创【Python数据清洗】——数据框行转列，列转行

import pandas as pdceshi = pd.read_csv(u'F:/下载/context_data.csv')# print(ceshi)# melt行转列bd = pd.melt(ceshi, id_vars=['context_id','subject_gmt'],value_vars=['browse_count','click_count','like_count','commet_count','reply_count','score_value'], var_

2021-03-02 11:20:41 1307

原创【Python报错解决方案】TypeError: ‘float‘ object is not callable

最近又开始写代码了，今天学习神经网络的BP时候发现了一个报错并且在网站上看了，大部分的解释都很简单但是有很难懂，但是人家的方法也是可以用的。其实这个错误非常简单，但如果你不注意就或报错并且由于太简单了就很难发现。解决方法：在数与数之间的加减乘除符号不能省略例子报错代码w[1] = w[1]-0.5( t1 * w[7] + t2 * w[8] )*h1*(1.0-h1)*l[1] 这段代码会报错！！！！错误：TypeError: ‘float’ object is not callable

2021-01-31 17:57:20 9643 1

原创【Python基础库】保留重要缓存内容 dill 使用【案例】

保存重要变量数据例子如下import dill#保存变量T='Hiya'val=[1,2,3]a = np.zeros([4,5])#建立一个缓存的文件filename= 'globalsave.pkl'dill.dump_session(filename)#读取变量filename= 'globalsave.pkl'#读取dill.load_session(filename)...

2021-01-26 14:53:15 1868

原创 TensorFlow 报错笔记

暂时没时间整理，还在学习，这个文章记录我学习过程中的报错，后面形成框架后会整理好告诉大家的~1、AttributeError: module ‘tensorflow’ has no attribute ‘Session’https://blog.csdn.net/sinat_36502563/article/details/1023023922、AttributeError: module ‘tensorflow’ has no attribute ‘global_variable_initializ

2021-01-26 14:32:46 979

原创【Python报错解决方案】TypeError: Cannot compare types ‘ndarray(dtype=int64)‘ and ‘int64‘

Python报错解决方案TypeError: Cannot compare types ‘ndarray(dtype=int64)’ and 'int64’不仅报错运行还慢data_replace = data.replace(code_dic)报错内容：解决方法：def replace_(x): #替换函数 return code_dic[x]data.applymap(lambda x: replace_(x))...

2020-10-12 17:08:30 5588 1

原创【Python数据清洗】python 错位相减，同一行（列）的错位相相减shift（）

今天接到一个需求，要求对数据错位相减。感觉写得有点麻烦，如果有其他方法，欢迎留言交流数据说明：有客户、消费日期、消费额度求解目标：对于同一个客户，对日期升序排序，如果下一个日期的消费额度大于上一个日期的消费额度，则标记，最终取出第一次发生时对应的较大的日期最简单的方法是使用 pandas.Series.shift 具体可参考官方文档https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.shift.html

2020-10-09 15:56:52 2270

原创【Python报错解决方案】Spyder书写时显示：IndentationError: unexpected indent

·加粗样式1、使用Spyder调用自写类（class）时提示：IndentationError: unexpected indent；2、检验后未发现有任何书写问题，缩进都正常；3、使用notebook时运行正常满足以上3个条件的可以尝试使用我的方法（亲测天坑）解决方法：1、删除所有注释2、将注释缩进以上两种解决方法，推荐使用2吧问题很简单，解决的朋友请点赞----------------分享完毕------------------------Address：北京Date：20200

2020-09-29 15:25:24 2441

原创【Python——类】同一个类中一个函数里调用另一个函数的方法

【Python—类】同一个类中一个函数里调用另一个函数的方法class Solution: def a(self): self.b() # 注意这种写法：self.类名 def b(self): print('在这里')a = Solution()a.a()

2020-09-28 16:23:31 17311 4

原创【Python数据清洗】快速查看类（class）下的方法及函数

快速查看类（class）下的方法import pandas as pdimport numpy as np import mathcontent = dir(math)print (content)Address：北京Date：20200925喜欢可以关注【小猪课堂】公众号了解更多内容

2020-09-25 12:01:28 2163

原创【Python报错解决方法】：ParserError：Error tokenizing data.C error:Expected x fields in line nnn,saw y.

使用pandas.read_csv(filePath)方法来读取csv文件时，可能会出现这种错误：ParserError：如：Error tokenizing data.C error:Expected 2 fields in line 407,saw 3.这句话的意思是，在csv文件的第407行数据，期待2个字段，但在第407行实际发现了3个字段。原因：header只有两个字段名，但数据的第407行却出现了3个字段（可能是该行数据包含了逗号，或者确实有三个部分），导致pandas不知道该如何处理

2020-09-14 10:21:25 28270 2

原创【Python数据清洗】在已有dataframe中添加一行数据

目的：在构造的dataframe中添加一行数据给已经建好的DataFrame中添加一行# 构建一个dataframedf = pd.DataFrame(columns=['name','number'], data=[['cat',3], ['dog',2],['pig',1]])df name number0 cat 31 dog 22 pig 1# 插入一行，随便设置索引，比如按照字符串作为索引df.loc['new'] = ['d

2020-09-10 19:55:08 10955 1

原创【python数据清洗】获取当日的日期或当日时间

获取当日的日期或当日时间import datetimecurrent_date = datetime.datetime.now().strftime('%Y%m%d')此时为字符串格式，强行改成整型current_date =int(datetime.datetime.now().strftime('%Y%m%d'))OK，每天一练，多练习就不会忘记Date：2020年9月7日Address：Beijing-----------------------------分享结束线-------

2020-09-07 16:29:05 1338

原创【Python数据清洗】DataFrame根据条件赋值

喜欢可以关注【小猪课堂】公众号了解更多内容DataFrame根据条件设置如果现在的判断条件是这样, 我们想要更改B中的数, 而更改的位置是取决于 A 的. 对于A大于4的位置. 更改B在相应位置上的数为0.>>df.B[df.A>4] = 0 A B C D2013-01-01 0 2222 2 32013-01-02 4 5 6 72013-01-03 8 0 111

2020-07-01 15:48:49 4390 1

原创【Python数据清洗】将某列从str/object修改为int/float型

【Python数据清洗】数据格式互换str转int、str转float、str转object添加链接描述这篇过于啰嗦，然后3分钟内看不完所以我又回来更新了========================================多年后看之前写的真的很啰嗦，可能不是网友们最想看到的（因为我看的时候看了好久才明白说的是啥子）字符转换！字符转换！字符转换！字符转换！字符转换！：str转成int法一：df['timestr']=df['timestr'].apply(lambda x : int(x

2020-06-28 15:02:18 16810 2

原创【Python报错解决方案】AttributeError: int object has no attribute log

你很可能看到了这篇文章，但是不是很简洁AttributeError: ‘int’ object has no attribute ‘log’来我们直接点报错代码np.log(dt['good']/dt['bad'])解决方案np.log((dt['good']/dt['bad']).astype('float'))结束~原因就是因为数据格式，之前是这个列是object，要改成basePython比R语言友好些喜欢的壮士请留下你的赞写于：北京2020-06-16...

2020-06-17 14:39:01 16556

原创【python报错解决方案】AttributeError: Series object has no attribute days

报错：AttributeError: ‘Series’ object has no attribute 'days’闲篇：https://stackoverflow.com/questions/61563275/for-loop-gets-attributeerror-series-object-has-no-attribute-days#new-answer刚刚本来想在英文网站上回到一波类似的问题，无奈我没有账号，三年级英语也不好，哈喽半天也不知道写啥问题方法df4['diff']=(pd.

2020-06-10 09:13:37 12204

原创【R语言数据分析】常用的转义符大全

\ttab\bbackspace\aalert (bell)\fform feed\vvertical tab\backslash \’ASCII apostrophe ’"ASCII quotation mark "`ASCII grave accent (backtick) `\nnncharacter with given octal code (1, 2 or 3 digits)\xnncharacter ...

2020-05-23 12:02:02 3972

原创房屋租赁合同模板2020 免费下载

看不惯百度收割韭菜，免费提供给需要的人，要Word版本关注小猪课堂，回复【房屋租赁】，百度网盘发给你~~，不想关注的复制下面的内容，自己改改格式也行。【注】以下合同范本为来自六六直租，具备法律效力，供出租求租者参考。六六直租用户之间可以直接在APP内【租赁合同】位置创建和签订；非六六直租用户亦可用使用微信进行签订。版权所有，转载请务必附带本文链接。————房屋租赁合同甲方（出租方）：乙方（承租方）：根据《中华人民共和国合同法》、《中华人民共和国城市房地产管理法》及其他有关法律、法

2020-05-13 09:18:35 3102 7

原创【Python报错解决方案】jupyter notebook代码自动补全，看了很多教程这个最靠谱

jupyter notebook代码自动补全看了很多教程这个最靠谱第一步：安装nbextensionspip install --user jupyter_contrib_nbextensionsjupyter contrib nbextension install --user如果出错第2行，产生错误：Error executing Jupyter command ‘contrib’: [Errno ‘jupyter-contrib’ not found] 2文件不存在，查看Scrip

2020-05-12 14:18:03 1657

原创【R语言数据分析】基础代码查询表

咸鱼翻身的第1天写于：北京记录：今天：2020年5月10日，也是母亲节，母亲节快乐~前言：由于工作的需要，我已经学习了几天的R语言了，我的工作是数据分析，有时候会用到一些计算机语言，比如Python，SQL，SAS和R语言，因为不同公司要求也是不一样的，还是那句话人为刀俎我为鱼肉，学习没有亏吃。以后我会在这篇博客下更新一些我自己在学习R语言的时候的基本函数以及我知道的技巧，如果喜欢的朋友可以关注我，喜欢的可以收藏，有问题的话给我留言一起学习~共同进步前段时间看了B站上的一个up主，她的格言很好

2020-05-10 13:25:12 2671

原创【Python机器学习】sklearn中train_test_split与model_selection和cross_validation的前世今生

sklearn中train_test_split与model_selection和cross_validation的前世今生好多朋友在学习的过程中或者看不同老师的视频教程中会发现老师们的使用的train_test_split时import的包会不一样，有的老师使用的是cross_validation而有的老师使用的是model_selection，前者的学习材料已经是前几年的了大概是17年左右的...

2020-05-05 15:30:05 603

原创【Python基础库】-在dataframe中错位相减-使用shift()函数

shift 英文：偏移DataFrame.shift(periods=1, freq=None, axis=0)参数periods：类型为int，表示移动的幅度，可以是正数，也可以是负数，默认值是1，1就表示移动一次，注意这里移动的都是数据，而索引是不移动的，移动之后没有对应值的，就赋值为NaN。freq： DateOffset, timedelta, or time rule stri...

2020-04-28 19:38:56 6748

原创【统计学】三大相关系数之皮尔逊相关系数（person correlation coefficient）

统计学中的三大相关性系数：pearson, spearman, kendall，他们反应的都是两个变量之间变化趋势的方向以及程度，其值范围为-1到+1。0表示两个变量不相关，正值表示正相关，负值表示负相关，值越大表示相关性越强。person correlation coefficient（皮尔森相关性系数）皮尔逊相关系数通常用r或ρ表示，度量两变量X和Y之间相互关系（线性相关）(1)公式...

2020-04-15 17:16:00 11130

原创【统计学】三大相关系数之肯德尔相关系数（kendall correlation coefficient）

kendall相关系数,亦即和谐系数kendall相关系数又称作和谐系数,也是一种等级相关系数,其计算方法如下:对于X,Y的两对观察值Xi,Yi和Xj,Yj,如果Xi<Yi并且Xj<Yj,或者Xi>Yi并且Xj>Yj,则称这两对观察值是和谐的,否则就是不和谐的.和谐： x1>y1 and x2>y2 (or x1<y1 and x2<y2)不...

2020-04-15 17:12:31 21831

原创【统计学】三大相关系数之斯皮尔曼相关系数（spearman correlation coefficient）

斯皮尔曼相关系数是统计学中三大相关系数之一具有非常好的使用场景，对于解决我们生活中的排名类的问题时使用的比较多，其实大家跟多的知道的先关系数是皮尔逊相关系数，这个相关系数我们也会在后面的文章中介绍。一、斯皮尔曼相关系数的使用场景：斯皮尔曼等级相关（Spearman’s correlation coefficient for ranked data）主要用于解决名称数据和顺序数据相关的问题。适...

2020-04-15 15:46:43 51173 7

原创【常用工具】Notepad++找回自动保存缓存内容的文件

notpad++上的缓存文件因系统更新或者不正常关闭后没有了怎么办？不要着急，你可以在系统盘里面找到自动保存的文件：文件自动保存的路径 C:\Users\Administrator\AppData\Roaming\Notepad++\backup...

2020-04-13 09:46:12 2273

原创【Python基础库】——Numpy

学了很久Python，也看了很多类似于从0到实战的书籍，说到底自己还是会一些代码和数据处理的能力，但是自己总感觉当自己写一些脚本的时候会不停的百度这个函数的原理或者百度那个函数的源代码是什么，而且对一个模块都是一直半解，经常会发现这个模块还有这个功能呀？然后感觉自己又发现了新大陆。综上吧，决定自己系统梳理一下自己在各个模块所遇到的函数或者叫方法的，我会将这个做成类似于日志的形式不断的更新。（估计这...

2020-03-29 15:29:24 284

原创【JupyterLab】介绍，极其强大的下一代notebook

十分惊喜的发现了一款很好用的编辑器分享个大家Jupyter Lab，个人觉得继承了jupyter notebook的优点又开发了许多新的功能，下面我们一起来看看吧~JupyterLab简介JupyterLab是Jupyter主打的最新数据科学生产工具，某种意义上，它的出现是为了取代Jupyter Notebook。不过不用担心Jupyter Notebook会消失，JupyterLab包含了...

2020-03-28 14:57:00 2269

原创【Python数据清洗】for循环+条件判断 VS 数据向量化

今天（也就是2020年3月26日）重新看了一下《利用Python进行数据分析》第二版然后下午的时候想工作一会就做了一个数据分析，至于我是怎么从1千多亿条数据里面选择出98w符合条件的数据就不赘述了，最关键的一点就是我使用了一个for循环+条件判断的代码，然后等了大约10分钟左右吧，因为在运行代码的时候跟朋友聊天，感觉都没什么可聊的的时候代码才运行完，然后我想起来了python中的numpy这个包...

2020-03-26 19:41:10 602

原创【Python数据清洗】数据格式互换str转int、str转float、str转object

【Python数据清洗】数据格式互换str转int、str转float、str转objectprint(test_1.x_id)print(test_2.x_id)objectint64这时候就要让两个id一致方法1：都变成字符串形式test_1.x_id.astype(str)test_2.x_id.astype(str)pd.merge(test_1,test_2,lef...

2020-03-18 14:35:58 4825

原创【Python机器学习】Sklearn train_test_split 随机划分训练集和测试集

官方文档添加链接描述sklearn.model_selection.train_test_split随机划分训练集和测试集一般形式：train_test_split是交叉验证中常用的函数，功能是从样本中随机的按比例选取train data和testdata，形式为：X_train,X_test, y_train, y_test =cross_validation.train_test_sp...

2020-03-16 17:30:16 1314

原创【python数据清洗】JSON的使用

【python数据清洗】JSON的使用这里只介绍两个概念和对应的两个功能dump：倾倒序列化就是将python数据转化为json格式load：装入反序列化将json转化成python格式json.dumps() json.loads() json文档https://docs.python.org/3/library/json.html更多内容VX关注【小猪课堂】公众号...

2020-03-08 19:13:36 1255

原创【Python机器学习】——决策树-sklearn【某互金公司决策树开发实例详解图文结合】

采用的方法见【Python机器学习】——决策树-sklearn这里不讲方法了，理论基础都在这里from sklearn.feature_extraction import DictVectorizer#DictVetorizer 用于传入构造dummy_array,也可以使用pandas.get_dummies()来实现import pandas as pdimport numpy as ...

2020-03-08 10:57:35 402

原创【Python报错解决】from PIL import Image突然不能调用了，亲测！问题已解决

重装Pillow之后即可恢复正常在cmd命令行窗口输入：pip uninstall Pillow待卸载成功后再次安装：pip install Pillowfrom PIL import Image即可成功赶快关注我，博主专业扫坑3年，只要时间长没有你猜不到的坑...

2020-03-07 20:23:34 4477 2

EnhancedEditor.zip

空空如也