![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python数据分析
安于此生_
这个作者很懒,什么都没留下…
展开
-
Python Pandas找到缺失值的位置
问题描述: python pandas判断缺失值一般采用 isnull(),然而生成的却是所有数据的true/false矩阵,对于庞大的数据dataframe,很难一眼看出来哪个数据缺失,一共有多少个缺失数据,缺失数据的位置。首先对于存在缺失值的数据,如下所示import pandas as pdimport numpy as npdf = pd.DataFrame(np.random.ra...转载 2018-05-04 14:12:15 · 2162 阅读 · 0 评论 -
python数据分析——pandas,numpy,matplot
pandaspandas.categoricalmap函数numpyargsort()numpy的ravel()meshgrid函数np.splitmatplotpandaspandas.categorical>>> pd.Categorical([1, 2, 3, 1, 2, 3])[1, 2, 3, 1, 2, 3]...原创 2018-06-07 11:06:18 · 824 阅读 · 0 评论 -
keras文档学习
序列模型sequenceModel常用的model属性Model模型的方法回调函数Callbacks(实际上是一个类)Flatten层嵌入层 ==Embedding==循环层LSTM层参数文本预处理Tokenizer(分词器)类方法:属性:句子分割text_to_word_sequence函数式(Functional)模型序列模型...转载 2018-06-07 11:36:38 · 294 阅读 · 0 评论 -
skleran库学习
LRPipeline数据划分lr.predict(x)和lr.predict_proba(x)决策树:随机森林GBMXGBoostSVM聚类LRsklearn学习-linear_model.LinearRegression方法: - score(X, y[,]sample_weight) 返回对于以X为samples,以y为target的预测...原创 2018-06-07 11:47:52 · 541 阅读 · 2 评论 -
lgb参数
参数: params = {'learning_rate': 0.2, # default=0.1, type=double, alias=shrinkage_rate 'application': 'binary', # default=regression,任务类型 'num_leaves': 31, #...原创 2018-06-12 15:36:08 · 23046 阅读 · 3 评论 -
keras里面如何计算f1-score
### 以下链接里面的codeimport numpy as npfrom keras.callbacks import Callbackfrom sklearn.metrics import confusion_matrix, f1_score, precision_score, recall_scoreclass Metrics(Callback):def on_train_begi...转载 2018-06-15 19:08:50 · 9710 阅读 · 0 评论 -
文本匹配学习,更新中
#import numpy as np,pandas as pddf_val = pd.read_csv('validation_data_cx.csv',encoding = 'utf-8')df_val.head(3)df_val.to_csv('validataon_data_cx.csv',encoding = 'utf-8')def mergedata(df): ...原创 2018-06-26 12:50:50 · 298 阅读 · 0 评论 -
Seaborn画图库
画图Seaborn Seaborn 是由斯坦福大学提供的一个python库,比matplotlib简单。 1. 样式控制:axes_style()和set_style() 2. 用despine()进行边框控制:删除上方和右方坐标轴上不需要的边框,参数offect和trim 3. 通过 plotting_context() 和 set_context() 调整绘图元素链接:http...原创 2018-06-07 10:47:07 · 416 阅读 · 0 评论 -
特征选择(含代码)
当数据预处理完成后,我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说,从两个方面考虑来选择特征:特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优选选择。除移除低方差法外,本文介绍的其他方法均从相关性考虑。根据特征选择的形式又可...转载 2018-06-07 10:18:37 · 6520 阅读 · 2 评论 -
pandas读取xls文件,添加列名
pandas读取文件,添加列名的方法df = pd.read_csv("file.csv",names=['id','score']) 注意names应该是[],而不是{},问题在于{}会随机选取,而[]则有顺序。读取xls文件data_xls = pd.read_excel(path,names=['user_id','Content','Score'])df = p...原创 2018-05-04 14:23:45 · 17896 阅读 · 1 评论 -
交叉验证在sklearn中的实现
前面已经简单介绍了交叉验证,这次主要说明sklearn中关于CV的相关实现。先说一个sklearn中的很好用的功能:对一个数据集进行随机划分,分别作为训练集和测试集。使用的是cross_validation.train_test_split函数,使用示例如下:1 实现CV最简单的方法是cross_validation.cross_val_score函数,该函数接受某个estimator,数据集...转载 2018-05-17 21:31:18 · 857 阅读 · 0 评论 -
numpy中takes函数
numpy.take(a, indices, axis=None, out=None, mode='raise')take(indices[, axis, out, mode]) :提取指定索引位置的数据,并以一维数组或者矩阵返回(主要取决axis)>>> a = [4, 3, 5, 7, 6, 8]>>> indices = [0, 1, 4]...原创 2018-05-19 20:59:34 · 9640 阅读 · 1 评论 -
选择包含某字符的列 pandas
选择包含“承德”的列数据#-*-coding:utf-8-*-import pandas as pdfrom pandas import DataFrame#读取数据file = pd.read_excel('test.xlsx',encoding='utf-8')df = pd.DataFrame(file)for index,row in df.iterrows(): ...原创 2018-05-15 16:56:09 · 9619 阅读 · 1 评论 -
DataFrame删除行、列
你在使用pandas处理DataFrame中是否遇到过如下这类问题?我们需要删除某一列所有元素中含有固定字符元素所在的行,比如下面的例子: 如果要删除的元素固定有更简单的方法,可参考另一篇博文:http://blog.csdn.net/htbeker/article/details/79427628...转载 2018-06-03 14:57:42 · 7221 阅读 · 0 评论 -
python读取Json文件保存为csv格式
两种方法load,读取的是整个文件,每个json之间用”,”分割开。此时文件开头”[” ,末尾加”]”loads,写在for循环里面一行一行的读取。每个json之间没有”,”的时候使用可以使用json在线解析,检验下文件是否合格 json在线解析 json在线解析2下面开始写代码读取import jsonimport pandas as pdloadsdf = ...原创 2018-06-03 15:12:46 · 7420 阅读 · 1 评论 -
python导入自定义的包
This inspection detects names that should resolve but don’t. Due to dynamic dispatch and duck typing, this is possible in a limited but useful number of cases. Top-level and class-level items are supp...转载 2018-05-24 10:04:44 · 452 阅读 · 0 评论 -
FTRL学习
总结学习资源:基于FTRL的在线CTR预测算法在线学习算法FTRL详解转载 2018-06-12 15:40:12 · 176 阅读 · 0 评论 -
python-遍历数据
dataframe按照行遍历import pandas as pddict=[[1,2,3,4,5,6],[2,3,4,5,6,7],[3,4,5,6,7,8],[4,5,6,7,8,9],[5,6,7,8,9,10]]data=pd.DataFrame(dict)print(data)for indexs in data.index: print(data.loc[inde...转载 2018-06-05 21:00:29 · 2375 阅读 · 0 评论 -
@contextmanager方法——python
@contextmanager方法 :用来创建一个上下文管理器。 这种对象实现了enter() 和 exit() 方法。# 中规中矩的写法f = open("test.txt", "w")f.write("hello world!")f.close()# 采用with结构with open("test.txt", "w") as f: f.write("hello world.转载 2018-06-06 16:54:05 · 812 阅读 · 0 评论 -
python读取csv数据(添加列名,指定分隔方式)
添加列名:pd.read_csv(file, header=None, names = ['a','b','c'] )names为指定的名字数据tab分隔的时候去读方式sep指定df = pd.read_csv('../input/data_train.csv',sep = '\t',encoding='GBK')...转载 2018-06-13 18:21:17 · 36006 阅读 · 0 评论 -
python数据分析常用方法-1[更新中]
了解数据读取数据保存数据数据的各种信息数据处理DataFrame拆分DataFrame 分组DataFrame随机选取数据创建空的DataFrame文本相关了解数据读取数据 说明:数据按照tab的方式分隔df = pd.read_csv('../input/data_train.csv',sep = '\t',encoding='GB...原创 2018-06-13 21:37:37 · 274 阅读 · 0 评论 -
sklearn.svm包中的SVC(kernel=”linear“)和LinearSVC的区别
链接1、LinearSVC使用的是平方hinge loss,SVC使用的是绝对值hinge loss (我们知道,绝对值hinge loss是非凸的,因而你不能用GD去优化,而平方hinge loss可以) 2、LinearSVC使用的是One-vs-All(也成One-vs-Rest)的优化方法,而SVC使用的是One-vs-One (其实我也不明白,如果有人明白恳请指教。。。) 3...转载 2018-07-08 18:01:05 · 4548 阅读 · 1 评论