机器学习--数据处理
噶噶~
这个作者很懒,什么都没留下…
展开
-
python 将2020-1-1转换为2020-01-01
python中日期数据处理原创 2023-05-18 19:40:57 · 391 阅读 · 0 评论 -
求解神经网络做十字交叉验证k=10,这种方法到底是得到十个模型还是一个模型
求解神经网络做十字交叉验证k=10,这种方法到底是得到十个模型还是一个模型原创 2023-04-19 17:21:48 · 319 阅读 · 0 评论 -
python当前日期加n天_Python中时间的加n和减n运算
【代码】python当前日期加n天_Python中时间的加n和减n运算。原创 2022-10-31 17:33:25 · 983 阅读 · 0 评论 -
Python:计算经纬度距离
python根据两点的经纬度计算其距离原创 2022-07-22 10:18:57 · 5255 阅读 · 0 评论 -
python对两个list取交集、并集、和异或
python处理list集合交并补的处理原创 2022-07-07 09:30:46 · 643 阅读 · 0 评论 -
Python日期时间差的计算(天/小时/分钟)及timedelta函数的使用(附python代码)
计算两个时间之间的时间间隔原创 2022-06-28 15:04:00 · 1828 阅读 · 0 评论 -
XGboost常见特征处理及其他问题
1. Bagging 和Boosting区别 RF,GBDT,XGBoost,lightGBM都属于集成学习(EnsembleLearning),集成学习的目的是通过结合多个基学习器的预测结果来改善基本学习器的泛化能力和鲁棒性。(1)形式上 Bagging:基本学习器之间存在强依赖关系、必须串行生成的序列化方法; 例如:随机森林 bagging主要关注降低方差 Boosting:基本学习器间不存在强依赖关系、可同时原创 2022-05-30 11:04:23 · 2979 阅读 · 4 评论 -
SSR、SSE、SST、判定系数(可决系数、拟合优度)的计算公式
https://blog.csdn.net/S20144144/article/details/99672706原创 2022-02-23 14:36:02 · 3490 阅读 · 0 评论 -
数学建模方法—【03】拟合优度的计算(python计算)
https://blog.csdn.net/qq_43403025/article/details/108285275原创 2022-02-23 14:27:35 · 1157 阅读 · 0 评论 -
python读取DataFrame的某行或某列
import numpy as npimport pandas as pdfrom pandas import Sereis, DataFrameser = Series(np.arange(3.))data = DataFrame(np.arange(16).reshape(4,4),index=list('abcd'),columns=list('wxyz'))data['w'] #选择表格中的'w'列,使用类字典属性,返回的是Series类型data.w #选择表格中的'w原创 2022-02-22 10:16:44 · 13692 阅读 · 1 评论 -
Pandas中DataFrame关联操作(concat、append、merge、join)
参考链接:https://blog.csdn.net/ai_1046067944/article/details/86481276?spm=1001.2101.3001.6650.1&utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-1.pc_relevant_aa&depth_1-utm_source=distribute.pc_relevant.none-t原创 2022-02-21 15:04:07 · 584 阅读 · 0 评论 -
python中DataFrame的处理
https://www.cnblogs.com/timotong/p/9678490.html原创 2022-02-21 14:18:18 · 709 阅读 · 0 评论 -
sympy模块解指数方程
from sympy.abc import x, y, z, a, bfrom sympy import expprint sympy.solve(exp(-1 * x * 29) - 0.1, x)参考链接:https://blog.csdn.net/bitcarmanlee/article/details/100072157原创 2021-12-08 10:07:50 · 191 阅读 · 0 评论 -
python 处理常用的时间问题
如何将字符串的时间转转为时间格式的数据# 变成年月日时分秒XJ = pd.to_datetime(data_dd["新建时间"], format="%Y/%m/%d %H:%M:%S")def getMonth(time): # 获取月份 a = (time.dt.month.astype(float)).tolist() return adef getDay(time): # 获取日 a = (time.dt.day.asty.原创 2021-12-05 11:30:54 · 179 阅读 · 0 评论 -
Python中求对数方法总结
参考链接:https://www.jb51.net/article/182340.htm原创 2021-11-05 12:08:53 · 1382 阅读 · 0 评论 -
pyhton根据城市名称获取省份名称
获取地理数据Fetching geodata with geopy在Feature Engineering的环节中经常会遇到地理数据的处理。地理数据通常包括地市\省份\经纬度等信息,这些不同level的特征可以被利用在模型训练中。但是通常我们能拿到的数据只是部分信息,如果想要增加特征维度,Python的geopy是一个获取geographic data很好的package。它内含地区的完整地址和经度纬度,并且支持包括中英文在内的多语言输入。以下是geopy的基本查询方式:!pip install原创 2021-11-03 11:09:32 · 4139 阅读 · 0 评论 -
python爬取各城市的油价
如何将汉字转换为拼音>>> from xpinyin import Pinyin>>> p = Pinyin()>>> # default splitter is `-`>>> p.get_pinyin(u"上海")'shang-hai'>>> # show tone marks>>> p.get_pinyin(u"上海", show_tone_marks=True)'shàng-.原创 2021-11-03 01:51:47 · 471 阅读 · 0 评论 -
python dataframe 获得 列名columns 和行名称 index
dfname._stat_axis.values.tolist() # 行名称dfname.columns.values.tolist() # 列名称原创 2021-10-13 00:25:35 · 1210 阅读 · 0 评论 -
简述AutoML由来与其应用现状
参考链接:https://zhuanlan.zhihu.com/p/57404166原创 2021-09-22 23:07:02 · 82 阅读 · 0 评论 -
python10大排序算法
冒泡排序:选择排序:快排:希尔顿排序:归并排序堆排序:https://www.cnblogs.com/chengxiao/p/6129630.html所有的排序代码:https://www.cnblogs.com/huang-yc/p/9774287.html原创 2021-08-12 11:39:44 · 43 阅读 · 0 评论 -
python读取excel指定列数据并写入到新的excel方法
#encoding=utf-8import xlrdfrom xlwt import *#------------------读数据---------------------------------fileName="C:\\Users\\st\\Desktop\\test\\20170221131701.xlsx"bk=xlrd.open_workbook(fileName)shxrange=range(bk.nsheets)try: sh=bk.sheet_by_name("Shee.原创 2020-06-10 18:48:02 · 4149 阅读 · 0 评论 -
python创建一个一定长度的集合并赋予初始值
案例1:list=[None for x in range(0, 10)]print(list) #[None, None, None, None, None, None, None, None, None, None]案例2:list=[1 for x in range(0, 10)]print(list) #[1, 1, 1, 1, 1, 1, 1, 1, 1, 1]原创 2020-05-19 14:39:14 · 826 阅读 · 0 评论 -
矩阵中的常用数据处理
1. 将矩阵中的每个小于0的元素转换为0trainPredict[trainPredict < 0] = 0 2. 将矩阵中每个值进行对出处理B=numpy.log10(B)原创 2020-05-13 20:16:13 · 461 阅读 · 0 评论 -
numpy之reshape()
结果: 结果既是:原创 2020-05-12 12:05:13 · 147 阅读 · 0 评论 -
python的基础包 Numpy、Pandas和Searborn
1. numpy (1)array 初始化一个数组 (2) Array indexing/数组取值 1)方式一 ...原创 2019-11-10 22:11:59 · 291 阅读 · 0 评论 -
三种常用数据标准化方法
评价是现代社会各领域的一项经常性的工作,是科学做出管理决策的重要依据。随着人们研究领域的不断扩大,所面临的评价对象日趋复杂,如果仅依据单一指标对事物进行评价往往不尽合理,必须全面地从整体的角度考虑问题,多指标综合评价方法应运而生。所谓多指标综合评价方法,就是把描述评价对象不同方面的多个指标的信息综合起来,并得到一个综合指标,由此对评价对象做一个整体上的评判,并进行横向或纵向比较。而在多指标评价...转载 2019-11-03 20:44:16 · 858 阅读 · 0 评论 -
Python try/except/finally
https://www.cnblogs.com/haoshine/p/5777537.html转载 2019-04-17 09:27:40 · 64 阅读 · 0 评论 -
python-关于None,NaN , 空字符的比较与处理(1)
https://blog.csdn.net/August1226/article/details/80652048转载 2019-04-16 13:55:49 · 397 阅读 · 0 评论 -
pandas小技巧之--值替换
https://blog.csdn.net/weixin_37536446/article/details/81266273转载 2019-04-16 13:47:50 · 591 阅读 · 0 评论 -
ValueError: Input contains NaN, infinity or a value too large for dtype('float64')问题解决
问题背景博主在调用sklearn.metrics.roc_auc_score()计算AUC时出现了这个报错问题分析错误提示说数据里面包含空值或者无穷大的数据,参与计算的两列数据有一列不是1就是0,另一列是楼主自己写的sigmoid函数计算出来的值,但是sigmoid函数不太可能算出无穷大的数值,所以关注是不是有哪个数出问题算出空值了。先检查有哪些列存在空值data = p...转载 2019-04-03 15:07:15 · 3993 阅读 · 0 评论 -
ueError: Input contains NaN, infinity or a value too large for dtype('float64').
问题:pandas在处理数据时出现以下错误ValueError: Input contains NaN, infinity or a value too large for dtype('float64').解决方法:1、检查数据中是否有缺失值例如,读取得到的原始数据如下# 读取数据train = pd.read_csv('./data/train.csv/train.csv')...原创 2019-03-28 14:54:22 · 2499 阅读 · 0 评论 -
python对离散变量的one-hot编码方法
我们在进行建模时,变量中经常会有一些变量为离散型变量,例如性别。这些变量我们一般无法直接放到模型中去训练模型。因此在使用之前,我们往往会对此类变量进行处理。一般是对离散变量进行one-hot编码。下面具体介绍通过python对离散变量进行one-hot的方法。注意:这里提供两种哑编码的实现方法,pandas和sklearn。它们最大的区别是,pandas默认只处理字符串类别变量,sklearn...原创 2019-01-22 14:06:22 · 1170 阅读 · 0 评论 -
数据预处理之独热编码(One-Hot Encoding)
原文链接:http://blog.csdn.net/dulingtingzi/article/details/51374487问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox",原创 2019-01-24 14:37:30 · 1178 阅读 · 0 评论 -
Python:聚合函数(groupby)
https://blog.csdn.net/qcyfred/article/details/78785792版权声明:本文为博主原创文章,转载请附上博文链接!原创 2019-01-02 14:55:04 · 917 阅读 · 0 评论 -
pandas dataframe 值替换
df['TermIndex']=df['TermIndex'].replace([1,2],['一','二']) #替换“TermIndex”的值,将数字转为中文原创 2018-12-07 14:38:34 · 2063 阅读 · 0 评论 -
python pandas 怎么替换某列的一个值?
摘要:本文主要是讲解怎么样替换某一列的一个值。应用场景:假如我们有以下的数据集: 我们想把里面不是pre的字符串全部换成Nonpre,我们要怎么做呢?做法很简单。df['col2']=df['col1']df.loc[df['col1'] !=' pre','col2']=Nonpre 结果:--------------------- 作者:kin...原创 2018-12-07 14:06:28 · 11431 阅读 · 0 评论 -
类别不平衡问题之SMOTE算法(Python imblearn极简实现)
类别不平衡问题 类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题。例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问题中,因为绝大多数样本都为正常样本,欺诈样本很少,逻辑回归算法会倾向于把大多数样本判定为正常样本,这样能达到很高的准确率,但是达不到很高的召回率。 类别不平衡问题在很多场...原创 2018-11-29 10:57:53 · 884 阅读 · 1 评论 -
数据预处理:独热编码(One-Hot Encoding)和 LabelEncoder标签编码
一、问题由来在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。离散特征的编码分为两种情况: 1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码 2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XXL:3}使用pandas可以很方便的对离散型特征进行on...原创 2018-11-29 10:53:09 · 1065 阅读 · 0 评论 -
One-Hot Encoding 及其使用原因
部分内容来自:http://blog.csdn.net/google19890102/article/details/44039761,http://blog.csdn.net/dulingtingzi/article/details/51374487,学习整理,如有侵权,告知删除 一、One-Hot Encoding介绍 1 .One-Hot Encoding One-...原创 2018-11-29 10:48:37 · 362 阅读 · 0 评论 -
xgboost等Tree-Model 对于特征是否需要进行one-hot编码的必要性分析
参考链接:https://blog.csdn.net/pipisorry/article/details/61193868 xgboost 对所有的输入特征都是当做数值型对待,所以你给定的数据也要是指定的数据类型对于数据缺失或者稀疏,xgboost 都可以自己处理纠结于 one-hot 编码问题主要是将分类信息转化为一定长度索引的二进制数据假设当前的数据类型是 annima...原创 2018-11-29 10:47:06 · 1198 阅读 · 0 评论