python可复用代码系列1:查看数据框缺失值占比

import pandas as pd a=pd.read_csv() #这里路径尽量用英文,我用中文做路径的时候各种报错 data=pd.DataFrame() name=[] count=[] narate=[] for i in a.columns: d=len(a)-a[i...

2019-08-23 16:24:48

阅读数 5

评论数 0

剑指offer系列2 替换空格

2替换空格 2.1 题目描述 请实现一个函数,将一个字符串中的每个空格替换成“%20”。例如,当字符串为We Are Happy.则经过替换之后的字符串为We%20Are%20Happy。 2.2 解题思路 replace 遍历字符串,然后遇到空格就替换成“%20” 2.3 代码 方...

2019-08-04 16:15:38

阅读数 5

评论数 0

剑指offer系列:二维数组中的查找

1 二维数组中的查找 1.1 题目描述 在一个二维数组中(每个一维数组的长度相同),每一行都按照从左到右递增的顺序排序,每一列都按照从上到下递增的顺序排序。请完成一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。 1.2 解题思路 按行开始遍历,假设target大于第一...

2019-08-04 15:53:27

阅读数 6

评论数 0

机器学习处理离散值方法之 95分位数盖帽法

def train_add_hat(x,features): import numpy as np import pandas as pd df=x.copy() q95_dict={} for col in features: q95=np...

2019-08-04 11:23:17

阅读数 153

评论数 0

等距分箱

python 自带的等宽分箱函数pd.cut() import numpy as np import pandas as pd from pandas import Series,DataFrame score_list=np.random.randint(30,100,size=20) pr...

2019-08-04 10:44:05

阅读数 11

评论数 0

os 删除文件和文件夹

import os import shutil os.remove(path) #删除文件 os.removedirs(path) #删除空文件夹 shutil.rmtree(path) #递归删除文件夹

2019-07-21 20:52:35

阅读数 2

评论数 0

Python遇到ModuleNotFoundError: No module named 'email.mime'; 'email' is not a package问题的处理办法

这个问题今天确实恶心到我了 import smtplib from email import encoders 就导入两行代码,我仔细研究,确定没有导入错库的啊 后面就写import smtplib一行代码就报如下错误了 最后:发现意外的发现py文件名和email同名导致错误...

2019-07-21 09:47:07

阅读数 6

评论数 0

数据挖掘面试题之逻辑回归lr

逻辑回归面试题 1.逻辑斯蒂回归推导 逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。 2.简述一下线性回归 3.为什么逻辑斯特回归中使用最大似然函数求得的参数是最优可能的参数值? 4.逻辑回归是线性模型吗? 5.逻辑回归做分...

2019-07-19 11:13:00

阅读数 11

评论数 0

聚类算法--K值估计及效果评估

上周实习工作中用到了聚类分析的相关内容,故又对聚类分析算法重温一遍,中间发现我前面所写博客有两个比较关键的步骤是缺失的: 利用肘部法...

2019-07-19 08:57:57

阅读数 14

评论数 0

hive+python数据分析入门

转载:https://blog.csdn.net/djd1234567/article/details/51145102 为什么要使用hive+python来分析数据 举个例子, 当年没有数据库的时候, 人们编程来操作文件系统, 这相当于 我们编写mapreduce来分析数据 后来有了数据...

2019-07-18 00:23:40

阅读数 30

评论数 0

Hive调用python脚本实现数据清洗、统计过程

转载:https://blog.csdn.net/bbbeoy/article/details/80772023 本实例通过python脚本对电影数据进行清洗,帮助读者了解hive调用python脚本的整个流程。 操作步骤: 1、创建基表 CREATE TABLE u_data ( u...

2019-07-18 00:09:55

阅读数 16

评论数 0

Hive——电商交易项目案例

转载:https://blog.csdn.net/accptanggang/article/details/52651630 电商交易项目案例 Sdate定义了日期的分类,将每天分别赋予所属的月份、星期、季度等属性, 字段分别为日期、年月、年、月、日、周几、第几周、季度、旬、半月; Stock...

2019-07-17 16:44:15

阅读数 13

评论数 0

sql经典面试题50题

总结不甚清楚的有:10,19,20,22,24,25,28,41,42 --1、查询"01"课程比"02"课程成绩高的学生的信息及课程分数 --1.1、查询同时存在"01"课程和"02"课程的情况 selec...

2019-07-16 23:42:25

阅读数 82

评论数 0

naivcat连接mysql

1,本人安装参考博客,成功下载安装免注册naivcat 参考:naivcat 破解安装教程(永久)https://blog.csdn.net/gui951753/article/details/83185037 2,用naivcat连接mysql时遇到了一个小问题:下面记载了解决办法 ...

2019-07-12 17:09:57

阅读数 184

评论数 0

Crypto(仿射密码解密)

此密文是通过函数y=5x+12得到的 def affine(a, b): pwd_dic = {} for i in range(26): if i+65 >=65 & i +65 <=90: p...

2019-07-12 13:27:03

阅读数 42

评论数 0

pandas 读取json数据

input.json 文件内容 { "ID":["1","2","3","4","5","6","7","8"...

2019-06-26 00:24:03

阅读数 93

评论数 0

pandas to_dict函数的用法介绍

1、to_dict 在pandas.core.frame.DataFrame模块中 可以选择六种的转换类型,分别对应于参数 ‘dict’, ‘list’, ‘series’, ‘split’, ‘records’, ‘index’,下面逐一介绍每种的用法 >>&...

2019-06-24 21:35:44

阅读数 130

评论数 0

pyspark 自定义函数

一:自定义函数的一般流程 # 1.创建普通的python函数 def to_upper(s): if s is not None: return s.upper() # 2.注册自定义函数 from pyspark.sql.functions imp...

2019-05-25 00:38:33

阅读数 171

评论数 0

python或pyspark,sql对一个dataframe,排序并排名

输入: 输出: 具体代码: 一:纯python代码 import pandas as pd data=pd.DataFrame({'c1':[5,8,3,3,4,1]}) print(data) d1= data.sort_values(by='c1') d1['rank']=d1....

2019-05-16 17:30:52

阅读数 217

评论数 0

在Jupyter Notebook里运行PySpark

有两种方法 配置PySpark driver,当运行pyspark命令就直接自动打开一个Jupyter Notebook,此时shell端不会打开 正常启动Jupyter Notebook,然后用findSpark的package(我选了这种) 方法1:配置PySpark driver 去~...

2019-05-10 18:37:27

阅读数 100

评论数 0

提示
确定要删除当前文章?
取消 删除