数据预处理
微毂
这个作者很懒,什么都没留下…
展开
-
Python机器学习-数据观察(一)
不管是数据分析还是机器学习,拿到一份数据前应该先了解数据的背景,了解业务需求,再者就是查看数据了。1.1、数据的读取# 读取数据,读取压缩的格式df = pd.read_csv("redcard.csv.gz", compression='gzip')1.2、查看数据# 查看数据大小df.shapedf.head()# 查看数据信息df.info()# 数据的分布规则df...原创 2019-07-31 14:22:29 · 1349 阅读 · 2 评论 -
pandas-循环
iterrows(): 将DataFrame迭代为(insex, Series)对。itertuples(): 将DataFrame迭代为元祖。iteritems(): 将DataFrame迭代为(列名, Series)对s = [{'a':10, 'b':100}, {'a':11, 'b':110}, {'a':12, 'b':123}]df = pd.DataFrame(s)d...原创 2019-09-05 10:53:00 · 1527 阅读 · 0 评论 -
Python-list
list.append(x)在列表的末尾添加一个元素。相当于 a[len(a):] = [x] 。list.extend(iterable)使用可迭代对象中的所有元素来扩展列表。相当于 a[len(a):] = iterable 。list.insert(i, x)在给定的位置插入一个元素。第一个参数是要插入的元素的索引,所以 a.insert(0, x) 插入列表头部, a.inser...原创 2019-08-28 12:10:01 · 539 阅读 · 0 评论 -
python机器学习-模型优化(六)
在机器学习的上下文中,超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。通常情况下,需要对超参数进行优化,给学习机选择一组最优超参数,以提高学习的性能和效果。超参数是不直接在估计器内学习的参数。在scikit-learn包中,它们作为估计器类中构造函数的参数 进行传递。典型的例子有:用于支持向量分类器的C、kernel和gamma ,用于Lasso的alpha等。搜索超参...原创 2019-08-28 10:58:44 · 1184 阅读 · 0 评论 -
python机器学习-模型评估(五)
http://sklearn.apachecn.org/cn/0.19.0/modules/model_evaluation.html除了使用estimator的score函数简单粗略地评估模型的质量之外,在sklearn.model_selection模块中的交叉验证相关方法可以评估模型的泛化能力,能够有效避免过拟合。6.1、metrics评估sklearn.metrics中的评估模型指...原创 2019-08-28 10:42:13 · 1331 阅读 · 0 评论 -
python机器学习-建模(四)
5.1、线性回归5.2、逻辑回归from sklearn.linear_model import LogisticRegressionfrom sklearn.cross_validation import cross_val_predict# 自定义权重项penalty = { 0: 5, 1: 1}lr = LogisticRegression(class_...原创 2019-08-28 09:41:57 · 3321 阅读 · 0 评论 -
python机器学习-特征工程(三)
https://www.cnblogs.com/jasonfreak/p/5448385.html三、特征提取字典加载特征:DictVectorizer文本特征提取:词频向量(CountVectorizer)TF-IDF向量(TfidfVectorizer,FfidfTransformer) 特征哈希向量(HashingVectorizer)图像特征的提取:提取像素矩阵边缘和兴趣点3...原创 2019-08-26 14:53:56 · 1352 阅读 · 0 评论 -
python-元组,列表,字典,集合(笔记)
python-总结标签(空格分隔): (元组,列表,字典,集合)字符串的格式化#rang()括号里是从小到大,不能反着在2.7里c=rang(1,10)运行直接得到一个列表['1','2','3','4','5','6','7','8','9']而在3.6里,这是一个难加载,就是虽然执行了语句,但不会加载出来,就是一个列表了,可以调用里面的元素,就是不能显示出来c=rang...原创 2019-07-23 11:38:46 · 180 阅读 · 0 评论 -
Python-函数(笔记)
函数(一)2018-05-03自定义函数(1)定义函数def 函数名()(2)调用函数函数名()函数参数必备参数 创建与调用时都要有参数,而且数量相等def name(arg1,arg2...) #形参,可以多个,不用声明#调用函数时,传给函数的数据就是实参关键字参数def test1(name,age): print(name,age)test...原创 2019-07-23 11:36:10 · 208 阅读 · 0 评论 -
Python 运算符、判断结构(笔记)
Python 运算符、判断结构###算术运算符算术运算符是完成基本的算术运算 (arithmetic operators) 符号,就是用来处理四则运算的符号。以下假设变量a为10,变量b为21:###比较(关系)运算符###赋值运算符###逻辑运算符###位运算符###成员运算符###身份运算符###运算符优先级##if语句##if–else语句...原创 2019-07-23 11:28:38 · 729 阅读 · 0 评论 -
Python机器学习-数据预处理(二)
http://sklearn.apachecn.org/cn/0.19.0/modules/preprocessing.html#preprocessing保证特征之间的差异一样2.1、缺失值处理统计缺失值的个数null_counts = loans.isnull().sum()删除整个记录里任何一个变量有缺失值的记录一般不建议使用dropna=titanic_df.dropna(...原创 2019-07-31 15:34:27 · 739 阅读 · 0 评论 -
Python-pandas高级篇
数据规整化,合并数据集merge¶原创 2019-07-26 10:48:05 · 722 阅读 · 1 评论 -
Python-pandas进阶篇
1、读取数据data=DataFrame(np.arange(16).reshape(4,4),index=['BJ','SH','GZ','SZ'],columns=['one','two','three','four'])data---------------------------- one two three fourBJ 0 1 2 3SH 4 5 6 7...原创 2019-07-24 15:00:46 · 320 阅读 · 0 评论 -
Python-pandas入门篇
数据读取数据预处理原创 2019-07-18 10:55:05 · 121 阅读 · 0 评论 -
Numpy-通用函数
绝对值absfabs—>(浮点型)print(np.abs(ar1))print(np.fabs(ar2)) [4 3 2 1 0 1 2 3]********************[[1. 2. 3.] [2. 3. 4.]]平方根print(np.sqrt(ar3))[1. 1.41421356 1.73205081 2. ...原创 2019-09-26 15:31:00 · 414 阅读 · 0 评论
分享