Dawei_01-CSDN博客

原创 centos安装anconda

1：CentOS在虚拟机上的安装按照教程：https://blog.csdn.net/qq_39038465/article/details/814788472：linux远程连接软件推荐用：MobaXterm比较适合程序员习惯，连接时用ifconfig查看虚拟机ip地址，注意本地虚拟机网卡要处于启用状态3：centos安装anconda33.1anconda3下载 ...

2019-04-26 12:57:20 1572

原创 numpy srgsort，[:::-1]切片与[:-1]

一：np.agsort()对array排序，https://docs.scipy.org/doc/numpy/reference/generated/numpy.argsort.html1：1维数据参考官方文档，返回了升序排列的索引>>> x = np.array([3, 1, 2])>>> np.argsort(x)array([1, 2...

2018-12-19 16:39:15 4987 1

原创 pnadas 自带时间处理

实例数据结构: PASS_TIME TOLLGATE_ID VEHICLE_TYPE_EX PLATE_TYPE_EX VEHICLE_LOGO_EX NEXT_PASS_TIME NEXT_TOLLGATE_ID0 180401141513 440110509032008002 K33 2.0 比亚迪 1.804012e...

2018-12-18 17:32:09 496

原创按行遍历pandas数据

测试数据car_data格式： PASS_TIME TOLLGATE_ID PLATE_INFO_EX VEHICLE_TYPE_EX PLATE_TYPE_EX VEHICLE_LOGO_EX NEXT_PASS_TIME NEXT_TOLLGATE_ID0 180401141513 440110509032008002 粤A*** ...

2018-12-18 17:19:22 7294

原创 pands 返回series的最大值对应的索引

应用场景：统计某列的value_counts() 返回结果是Series，想要得到最大出现次数的数值，type(gp)Out[83]: pandas.core.series.SeriesgpOut[84]: a 1b 2c 3d 4e 5f 6g 7Name: groupid, dtype: int64gp.idxmax(...

2018-12-12 15:09:00 16615 1

原创 loc中关于列的索引，加不加[]的区别

df.loc[,["列名]]列名加[] 返回值是dataframe，不加返回的Seriescurrent_district = district_city.loc[district_city["TOLLGATE_ID"]==gate_current,["district"]]current_districtOut[4]: district416 天河区typ...

2018-12-11 17:13:34 902

转载 pandas按属性值筛选，isin

import pandas as pddf = pd.DataFrame({'countries':['US','UK','Germany','China']})dfOut[34]: countries0 US1 UK2 Germany3 China说明实例如上，有两种方式，第一种：df1=df[df["countries"...

2018-12-10 17:23:31 2041

原创过滤掉出现次数少的行---pandaa.groupby

需求：过滤掉pandas DataFrame中出现次数较少的行，可以采用下面的写法：df为待过滤数据df_family_car = df.groupby("PLATE_INFO_EX").filter(lambda x: (len(x) > 500 and len(x)<1000))详细研究groupby用法，参考链接：https://blog.csdn.net/song...

2018-12-06 20:30:46 5629 2

原创回归与logistic regression

参考：7月算法——邹博关于回归的讲义1:线性回归线性回归是求一个参数theata ，去拟合大部分样本，线性回归表达式： 2：用极大似然估计解释最小二乘法：函数值可以写为： ...

2018-09-13 16:43:25 423

原创欠采样（undersampling）和过采样（oversampling）会对模型带来怎样的影响

参考：知乎专栏项目中出现了二分类数据不平衡问题，研究总结下对于类别不平横问题的处理经验：1：为什么类别不平衡会影响模型的输出：许多模型的输出类别是基于阈值的，例如逻辑回归中小于0.5的为反例，大于则为正例。在数据不平衡时，默认的阈值会导致模型输出倾向与类别数据多的类别。因此可以在实际应用中，解决办法包括：1)调整分类阈值，使得更倾向与类别少的数据。2）选择合适的评估标准，比...

2018-06-28 17:41:51 48671 7

原创画AUC曲线

以pandas数据格式输入，画svm的交叉验证auc曲线import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import train_test_sp...

2018-06-14 20:02:24 4738 1

原创特征重要度展示

RF评价特征重要度，画出特征排行import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.ensemble import RandomForestClassifierfrom sklearn.model_selection import train_test_split,GridSear...

2018-06-13 19:27:14 2003

数据处理的features engineering过程中，常常需要根据算法的input数据格式对数据进行预处理，对数值性数的表处理可以提高算法的精度，保证算法的可信度。常用的数据处理办法有数据归一化，标准话和正则话。1：数据归一化（Normalization） 1.把数据变为（0，1）之间的小数。主要是为了方便数据处理，因为将数据映射到0～1范围之内，可以使处理过程更加便捷、快速。2.把有量纲表达...

2018-06-04 20:22:29 1092

原创 python 寻找list中最大值、最小值位置; reshpe（-1，1）提示，格式话出错，pandas copy

1：寻找list中最大值、最小值位置转载自：https://blog.csdn.net/fengjiexyb/article/details/77435676c = [-10,-5,0,5,3,10,15,-20,25]print c.index(min(c)) # 返回最小值print c.index(max(c)) # 返回最大值2：报错 Reshape your data eith...

2018-05-28 20:22:21 2966

原创快速创建一个pandas Data_Frame ,方便测试

import numpy as npimport pandas as pddata = np.random.randn(6, 4)df = pd.DataFrame(data,columns=['a','b','c','d'])print(df) a b c d0 0.401976 0.735167...

2018-05-28 16:32:52 1896

原创 pandas 获得行列数，shuffle 函数sample() ，重建索引，DataFrame数据筛选——loc，iloc，at，iat

#pandas获取数据行数和列数，并非是用len或者length的，而是用shape：Count_Row=df.shape[0] #gives number of row countCount_Col=df.shape[1] #gives number of col countpandas数据去重，链接，def unbanlance(un_data): data1 = un_data....

2018-05-25 17:55:01 7690

原创 pandas数据去除某些列，合并列，去重，重建索引

def select_data2collision(): data1 = data.iloc[:,45:] #取45列以后的数据 data2 = pd.concat([data["CASEID"],data1], axis=1) #把caseid的列合并进去 print(data2.head()) data3 = data2.drop_duplicates(['C...

2018-05-24 20:30:58 6628

转载 PANDAS 数据合并与重塑（concat篇）

工作需要pandas拼接组合，看到写的比较好的博客。一下内容位为转载：pandas作者Wes McKinney 在【PYTHON FOR DATA ANALYSIS】中对pandas的方方面面都有了一个权威简明的入门级的介绍，但在实际使用过程中，我发现书中的内容还只是冰山一角。谈到pandas数据的行更新、表合并等操作，一般用到的方法有concat、join、merge。但这三种方法对于很多新手来...

2018-05-24 20:26:06 5015

原创 pandas-loc和iloc索引的对比

pandas读取数据后可以很方便的索引数据，其中我们可以直接从pandas数据读取，例如：df = pd.DataFrame({'A': ['a', 'b', 'a'], 'B': ['b', 'a', 'c'],'C': [1, 2, 3]}) dfOut[54]: A B C0 a b 11 b a 22 a c 3df["A"]Out[5...

2018-05-23 19:53:33 1237

原创 matplot 色卡

参考链接：http://scipy-cookbook.readthedocs.io/items/Matplotlib_Show_colormaps.html

2018-05-12 16:02:21 1532

转载【转】关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

一、标准化（Z-Score），或者去除均值和方差缩放公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。实现时，有两种不同的方式：使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标准化。>>> from...

2018-04-30 19:24:38 595

转载 Random Forest（sklearn参数详解)

本篇不是介绍RF的，关于RF网上有很多通俗易懂的解释西瓜书与统计学习方法等很多教材中的解释也都足够本篇仅针对如何使用sklearn中的RandomForestClassifier作记录代码案例：class sklearn.ensemble.RandomForestClassifier(n_estimators=10, crite-rion=’gini’, max_depth=None, m...

2018-04-28 11:20:01 961

转载 sklearn常用分类算法集合

# coding=gbk ''''' Created on 2016年6月4日 @author: bryan ''' import time from sklearn import metrics import pickle as pickle import pandas as pd # Multinomial Naive Ba...

2018-04-28 10:04:01 1863

转载特征选择算法--Relief与ReliefK

本文转载自：https://blog.csdn.net/ferrarild/article/details/187926131：ReiiefRelief算法最早由Kira提出，最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms)，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除。Relief算法中特...

2018-04-25 11:04:19 1707

原创 numpy数组 randint,normal以及 c_函数功能

1:random.randint(low，high，size）：包含low。不包含high，size是数量，默认为12:np.random.normal()正态分布高斯分布的概率密度函数 numpy中numpy.random.normal(loc=0.0, scale=1.0, size=None) 参数的意义为：　　loc:float　　概率分布的均值，对应着整个...

2018-04-22 18:50:24 835

原创 pycharm 安装第三方库报错：AttributeError: 'module' object has no attribute 'main'

准备运行一份代码，是python2环境，需要pycharm配置到python2：本机环境如下：prcharm版本 2017.3.4python2.7 用pycharm 的虚拟环境加载第三方库的时候，例如numpy，直接报错：AttributeError: 'module' object has no attribute 'main'如图：Traceback (most recent call la...

2018-04-20 22:28:19 9112

转载 coo_matrix

转载自：博客coo_matrix：构造矩阵，指定位置填数据这个就更容易了。直接上例子如下：即n行，m列存了data[i]，其余位置皆为0.>>> from scipy.sparse import coo_matrix>>> coo_matrix((3, 4), dtype=np.int8).toarray()array([[0, 0, 0, 0], ...

2018-04-19 15:36:21 792

原创 numpy reshape -1参数

reshape是对array重新塑型，但是今天看别人代码出现了np.reshape(z,[-1])这种参数，仔细看下。按照引用的例子：https://blog.csdn.net/weixin_39449570/article/details/78619196>>> z = np.array([[1, 2, 3, 4],[5, 6, 7, 8],[9, 10, 11, 12],[1...

2018-04-19 11:24:15 1743

原创 gitHub 代码从fork到push

可以参考：https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000https://jingyan.baidu.com/article/359911f5a4fe4b57fe03060d.html?qq-pf-to=pcqq.group参与了某个apach开源项目，用github过程中发现一些...

2018-04-17 17:29:26 3864

转载 python list 排序问题

转载自：https://blog.csdn.net/huangzhiyuan111/article/details/52667791对List进行排序，Python提供了两个方法---sort----方法1.用List的内建函数list.sort进行排序list.sort(func=None, key=None, reverse=False) 方法2.用序列类型函数sorted(list)进行排序...

2018-04-08 12:25:21 343

原创推荐系统Surprise--度量准则与评估标准

一：Surprise中基于近邻的方法(协同过滤)可以设定不同的度量准则。具体如下：相似度度量标准度量标准说明1：cosine用户（items）之间的cosine 相似度2：msd用户（items）之间的均方差误差3：pearson用户（items）之间的皮尔逊相关系数4：pearson_baseline计算用户（item）之间的（缩小的）皮尔逊相关系数，使用基准值进行居中而不是平均值。1：cosi...

2018-04-08 11:12:49 2162

原创推荐系统Surprise库内置推荐算法

在推荐系统的建模过程中，我们将用到python库 Surprise(Simple Python RecommendatIon System Engine)，是scikit系列中的一个。简单易用，同时支持多种推荐算法：基础算法/baseline algorithms基于近邻方法(协同过滤)/neighborhood methods矩阵分解方法/matrix factorization-based (...

2018-04-07 20:43:06 5062 1

原创 python3.6--filter（）函数与python2的区别

python函数在python3,6中返回值是<filter at 0xf9d9a10cf8>，而在python2中返回值类型是list

2018-04-07 14:51:05 721

转载从python中copy与deepcopy的区别看python引用

转载：博客讨论copy与deepcopy的区别这个问题要先搞清楚python中的引用、python的内存管理。python中的一切事物皆为对象，并且规定参数的传递都是对象的引用。可能这样说听起来比较难懂，对比一下PHP中的赋值和引用就有大致的概念了。参考下面一段引用：1. python不允许程序员选择采用传值还是传引用。Python参数传递采用的肯定是“传对象引用”的方式。实际上，这种方式相当于传...

2018-04-06 22:26:54 224

原创推荐系统--Surprise模型选择模块selection moudle

Surprise库中 The model_selection package 提供了算法的交叉验证和参数选择功能1：交叉验证迭代器（类似于scikit-learn）KFold基础k折交叉验证RepeatedKFold 多次k折交叉验证.ShuffleSplit乱序训练集和数据集下的基础交叉验证LeaveOneOut在测试集上每个用户只取一个评分做交叉验证PredefinedKFold：数据集...

2018-04-06 13:22:22 1515

原创推荐系统---surprise库的测试

1：加载数据集def load_format2trainset(): file_path = "F:\\ML\\recommendation_data\\music_playlist_farmat.txt" # 指定文件格式 reader = Reader(line_format='user item rating timestamp', sep=',') # 从文...

2018-04-05 15:36:34 2310 1

转载 python参数传递是值传递还是引用传递

先举个栗子： def func(val): val.append(100) val = ['x', 'y', 'z'] return val L = [1, 10]print func(L)print L输出结果: ['x', 'y', 'z'] [1, 10, 100]为什么呢？我们接下来讲下Python函数的参数传递我们首先明确一...

2018-04-04 10:33:51 1271

原创 scikit-surpris库之dataset module

dataset module 定义了Dataset及其子类，用于管理数据集。用户可以使用内置的数据集和自己定义的数据集两种，内置的数据集包括：The movielens-100k dataset.The movielens-1m dataset.The Jester dataset 2.如果数据已经下载之后，可以通过Dataset.load_builtin()方法加载，未下载的会会提示是否下载。加...

2018-03-23 11:32:56 2885

转载 python os.path模块

转载：https://www.cnblogs.com/dkblog/archive/2011/03/25/1995537.htmlos.path.abspath(path) #返回绝对路径os.path.basename(path) #返回文件名os.path.commonprefix(list) #返回list(多个路径)中，所有path共有的最长的路径。os.path.dirname(path...

2018-03-22 10:52:26 238

原创 python3.6--map()函数与python2的区别

map()函数功能是：map()是 Python 内置的高阶函数，它接收一个函数 f 和一个 list，并通过把函数 f 依次作用在 list 的每个元素上，得到一个新的 list 并返回。在python2中，map（）函数返回值是list类型，在python3.6中返回值改为map object类型，遍历前要转换成list才可以def f(x,y): return {x:y}a=[1,...

2018-03-16 11:07:44 1257

空空如也

空空如也