- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 1999 KDD Cup 网络流量异常检测大赛 特征
back,buffer_overflow,ftp_write,guess_passwd,imap,ipsweep,land,loadmodule,multihop,neptune,nmap,normal,perl,phf,pod,portsweep,rootkit,satan,smurf,spy,teardrop,warezclient,warezmaster.1,duration: cont...
2018-07-30 13:36:27 1712
转载 pandas+groupby+std
我们对groupby后的数据的某一列或者某几列求方差,代码如下:>>> df = pd.DataFrame({'a':range(10), 'b':range(10,20), 'c':list('abcdefghij'), 'g':[1]*3 + [2]*3 + [3]*4})>>> df a b c g0 0 10 a 11 1 ...
2018-07-16 08:53:01 1788
原创 DataFrame执行groupby聚合操作后,如何继续保持DataFrame对象而不变成Series对象
其实只要聚合的时候指定分组的列不作为index就行。 action.groupby(['sku_id', 'type'], as_index=False).count()添加as_index=False
2018-07-13 16:49:50 6223
原创 pandas外连接
dd = pd.merge(df,df2,how='outer')外连接是两个表连接的一种方式,给人的印象是外连接的话,连接后的表会变大。 he 1220 1 21 2 3上面是表1,下面是表2 he 12220 1 11 1 22 1 23 2 24 2 25 2 2这两个表有...
2018-07-13 16:37:01 2612
原创 判断一个日期是否在一个期间内pandas
新方法:用一个.loc也是可行的,连接的不是and ,是别的!!!!去除的方法把不符合条件的变成None值,然后就可以了。import pandas as pddf = pd.DataFrame([1,2,3,4,5,6,3,2,1,3,4])df.loc[ (df[0]>2) & (df[0]<5) ] =None #这里大于2小于5是我们要去除的条件...
2018-07-13 15:26:55 5334 2
原创 What is important to learn for predicting stock prices, regression algorithm or classification algor
Forget about algorithms at first.To apply any sort of machine learning well, you have to first understand the problem you are solving, the data you are using to solve it, and the methods currently use...
2018-07-11 15:36:47 139
原创 lightgbt的simple_example
import jsonimport lightgbm as lgbimport pandas as pdfrom sklearn.metrics import mean_squared_errorprint('load data...')#如果带中文字符,那么就会报错,路径不能带中文df_train = pd.read_csv('D:/2345download/LightGBM-ma...
2018-07-09 11:01:19 564
原创 有规律的文本信息提取
文本的格式大概是这样的:Energy Usage: ---------------------------------------------------------------- Usage Avg. Kw-hr Avg. Peak Cost Pump Factor Effic. /m3 ...
2018-07-04 17:07:45 1282
原创 为什么卷积核一般是奇数的正方形
本文翻译,原网址:https://datascience.stackexchange.com/questions/23183/why-convolutions-always-use-odd-numbers-as-filter-size卷积运算,简单地说,是两个矩阵的元素乘积的组合。只要这两个矩阵在维度上是一致的,就不应该有问题,所以我可以理解你的查询背后的动机。A.1然而,卷积的意图是根据滤波器或...
2018-07-03 16:33:13 6686
原创 pandas对数据的操作
今天主要对pandas的时间进行了操作。因为需要喂入的模型是以小时为单位的,而我的数据是每五分钟一次,因此把小时数据要汇总下。主要实现的目的有这些。1,怎么样对dataframe进行改列的名称df.rename(columns={'Time':'ds','Value':'y'},inplace = True)这个改名称还是很给力的2,怎么对两个Series进行合并pd.concat([ds,ts]...
2018-07-03 14:31:06 550 1
转载 pandas时间格式的转产str转成date
>>> df = pd.DataFrame({'year': [2015, 2016], 'month': [2, 3], 'day': [4, 5]})>>> pd.to_datetime(df)0 2015-02-041 2016-03-05dtype...
2018-07-03 10:57:43 7067 1
原创 prophet make_future_dataframe freq=
网址:http://pandas.pydata.org/pandas-docs/stable/timeseries.html#offset-aliases
2018-07-03 10:34:49 3716
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人