- 博客(6)
- 收藏
- 关注
原创 遇到的实际问题pyspark代码
consume_by = consume_list[len(consume_list) - 1][1] - consume_list[0][1] #末次打赏数减去首次打赏数first_list = consume_list[0][3] #打赏值为列表的列表。取初次打赏值。一次开播的打赏为一个列表,所有列表为一个列表的列表last_list = consume_list[len(consum...
2019-03-12 19:09:00 212
原创 数据归一化
version:python 3.6环境:anaconda/JupyterLab 0.27.0操作系统:Windows 10数据处理时经常用到数据归一化和标准化,但是一个数据集,不同字段之间的量纲和数据大小分布不一致。所以需要按列归一化,而不是直接对所有数据归一化。下面是我写的函数,可以直接调用:def minmax_scale(data): for col in feature...
2019-01-29 14:51:19 825
原创 几种常见的测评函数python实现
version:python 3.6环境:anaconda/JupyterLab 0.27.0操作系统:Windows 10机器学习过程中,对模型表征能力的测评是非常重要的一环。不同模型要求实现的目的不同,各个测评函数应视实际情况选择使用,下面列举一些笔者碰到的测评函数。后续将不断地完善。python的语言真的数学工具中的大杀器,python代码的思维和数学语言的逻辑思维是一样的。个人感觉...
2019-01-23 16:38:11 465
原创 python柱状图参数设置
version:python 3.6环境:anaconda/JupyterLab 0.27.0操作系统:Windows 10import pandas as pdimport matplotlib.pyplot as plta = pd.DataFrame(train_set['收率'].value_counts()).reset_index()a.rename(columns={'...
2019-01-18 09:46:43 7254
原创 KNN分类(python)
version:python 3.6环境:anaconda/JupyterLab 0.27.0操作系统:Windows 10#k邻近值分类 KNN模型,选择2个邻居from numpy import *import operatordef get_dataset(train_x,train_y): group = train_x.values labels = tr...
2019-01-15 19:49:19 307
原创 python数据处理之日期格式转换
标题@[python数据处理之日期格式转换]分类:日期格式转换日期格式的数据可以整列进行转换,不需要进行for循环。这也是python处理数据是的强大之处。具体操作如下:tmp = pd.to_datetime(df.datetime,format="%Y/%m/%d")df['weekday'] = tmp.dt.weekdaydf['year'] = tmp.dt.ye
2019-01-15 08:49:50 7126
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人