自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 资源 (2)
  • 收藏
  • 关注

原创 cmd用conda语句安装python包

cmd下用conda语句安装python包开始安装anaconda的时候可以将anaconda加入环境变量,这样安装一些python的包可以直接打开cmd窗口输入conda install 库名,就非常的方便,不过有时候在cmd下下语句,不知道是什么语法,所以在此总结一下自己遇到的常用的,以后遇到了再更新。一些基本语句 conda list : 显示之前已经安装好的库 ...

2018-08-31 10:49:45 2144

原创 通俗理解面向对象和面向过程+编程思想

上午单位的C++大佬给我们分享了一些编程思想,开始介绍了面向对象和面向过程面向过程是什么,就是对事件的过程进行编程,我们已知事件的发展过程,我们根据过程发展的节点去编程。整个编程是过程驱动,开始,然后输入数据,然后处理,最后结束,或者反复循环这种。C程序就是面向过程的,一次只做一件事情,比如空调,或者一些内嵌小程序的东西就是C程序,通俗易懂的例子就是计算器,输入数字,运算符号,再输入数...

2018-08-29 14:04:30 6780 1

原创 自然对数e和圆周率pai

之前看过一部美剧叫做《疑犯追踪》,男主之一说过关于π的一些话,觉得很有感触,大致意思是说,π是无穷不循环的一个数,后面的小数位无穷无尽的延伸下去,没有尽头,小数位包含这一切的数字组合,世界上所有的数字组合都能在π中找到,电话号码,身份证号,银行卡号和密码,甚至可以在π中找到一本《哈姆雷特》,在地球上发生的一切事情都可以在π中被记录。当时听到说的这些,很是赞同,但是觉得不能细想,因为,其他的无限...

2018-08-28 16:05:27 5372

原创 五点三次平滑+python实现

在处理工业数据的时候,工业数据有数据颗粒细,噪声大,量大,随着测量点的增加,数据维度高,复杂性高,而且关联性强,不过这个关联性是相对的,因为有时候数据噪声较大,显示不出来这种关联性。最近了解的五点三次平滑,在一个工业数据处理平台上有这个,就很疑惑为什么要用这个,搜了很多都是matlab写的代码,没有说明为什么用这个方法,就去知网搜了几篇论文,引用这些文献的解释:“一般来说,在数据采集系统中...

2018-08-17 11:31:50 8350 4

原创 RSME,MSE,R2等指标的解释与思考

最近做一个算法,直接算法中就计算了一个叫做RMSE的值,开始出来我以为是准确率,类似于,clf.score,后来想想好像不对,所以就看来一些文章来研究了一下这些的含义。预测值和真值相差的平方和是SSE,也就是误差平方和,这肯定是越小越好了,相当于一个误差累计。当然这个SSE越接近于0越好。但是,如果说10000的样本的情况,建立一个A模型,这个模型的SSE是100,100个样本的情况...

2018-08-15 15:09:37 27116 1

原创 2018/8/14pandas一些好用的用法

1.对数据框差分df.diff() 所有数据列差分,下一行减去上一行,默认axis=0。设置axis=1就是左右差分,可以做二阶差分df.diff(2)。2.根据时间平滑/重采样df10=dfnew.resample('10min',how='mean')索引是datetime,原来的时间索引是每30秒一次,how选择mean,就是每10分钟取一次平均来将数据量变少,变得平滑。...

2018-08-14 16:53:28 293

原创 .apply()替代for循环减少处理数据时间

 目的是希望讲时间对其,开始写for循环,差不多30分钟,然后用apply后a=[]d=[]df1=pd.DataFrame(None,columns=['datetime','IO_2008',])for i in range(len(IO_Values[id[0]])): aa=IO_Values[id[0]][i][1] tm=IO_Values[id[0]][i...

2018-08-14 11:13:01 4068 3

原创 2018/8/9-读取txt文件将所有数据四舍五入写入csv

朋友说有一个ascii文件,应该是司徒文件,不同的颜色是不同的数字这种。朋友本想放到excel里打开,然后设置单元格式,四舍误入,但是就出现全都是9999,显示不出来其他的数值。所以我就用python弄一下。ascii数据我用TXT打开,并以这种格式保存。import sysresult=[]with open("...\Desktop\\test.txt") as f: for ...

2018-08-10 16:43:49 606

原创 2018/8/8-sqlserver读的数据转为数据框格式

今天特别气自己,想骂人。今天还是北京奥运十周年。之前连数据库用来同事发给我的代码去连,然后一般数据都是存在rows里。 cursor.execute(sql) rows = cursor.fetchall()我自己写是加了一个list,因为他这个每一行都是元组,元组又不能修改,也没什么方法。然后这个数据框是一行,我自己又写个for循环,将着一行两个变量拆开。我也知道...

2018-08-08 15:54:47 335

原创 2018/8/7-调整时间对齐用一些数据框操作

时间序列数据的时间一般是每隔30秒更新,后来就变了,开始都是00s,30s,这样的间隔,后面尾数就不是这样了,比如22,52,15,45这种,也是因为这个存储的方法的问题,如果下一个时段检测的数据和上一个时间测得结果相同,就不更新数据,所以有一个将数据补齐的过程。我的想法是将这个不是0和30结尾的,作为延迟来考虑,就比如22,那就是说明延迟了22s,我将它归为22。这样想的原因是,这个隔30秒测一...

2018-08-08 08:44:08 646

原创 Leetcode两数之和python(1)

其实是很简单的题目,但是还是写了很久,每次都是因为代码超时,如果从原理上看,自我感觉还是比较良好,觉得没问题,为什么提交通不过勒。当时的提交结果,自己试了不同的nums都没问题,但是就是超时。不过也开始因为这个问题才开始意识到程序好耗时的问题。之前都是直接写了完事,电脑跑去吧,然后自己就等待,没有想到可以改进,将时常缩短,遇到这个问题真的很好。附上原来的代码(错误示范),现在想想,很多步骤...

2018-08-07 09:59:31 178

原创 交叉验证

交叉验证是一种评估的方法,也就是说我们根据已有数据得到一个方法,但这个方法拿到实际中好不好用,就是我们要来评估的。这种性质就是模型的泛化能力。交叉验证的目的就是评估这个性质。交叉验证的实践方法是讲整个数据集分成k个大小相似子集,尽量保证子集数据分布的一致性,每次用k-1个子集作为训练集,剩下的1个作为测试集,这样一共有k组这种训练集和对应的测试集,也就是做了k次训练和测试,最后计算的是这k次结...

2018-08-06 09:58:46 745

原创 最大相关最小冗余

数据一般的形式是有维度的,每一个维度就是数据的特征变量,很多特征变量之间有相似的,也有不相似的,如果一个特征很多的数据,比如10000个,建模的时候所有的数据都利用起来,会很慢,而且模型会很复杂,会造成浪费和不实用。大相关最小冗余就是一种选特征的思想,最大相关是希望模型和选取的特征变量之间是最大相关的,有些数据的特征对于我们要解决的问题是没有关系的,所以在利用数据的时候要将相关性最大的特征挑选出来...

2018-08-06 09:58:25 3706

原创 2018/8/2-日常以及用到的方法

1.如果格式是datetime,想转换成字符串,可以用aa=list(data['datetime'][i])[0].strftime('%Y-%m-%d %H:%M:%S')aa是空的list,data是数据框,想把数据框中datetime变成字符串存进来;2.今天发现,生成一个dataframe不仅可以用pd.DataFrame(data,columns=[],index=[])...

2018-08-02 17:20:22 184

原创 2018/8/1-sqlsever查询groupby后丢字段的方法

所查数据精确到秒,每隔30S一次,有时候前面都是0,30,后面就变成17,47这种,就很烦,说好的隔30秒,所以就像平滑一下,所以,就想把秒去掉,直要后面的分钟,时间格式是2018-01-01 00:00:00:000,在查询窗口利用convert在,将时间格式转一下SELECT CONVERT(VARCHAR(100),A.BIAOMING,100) AS TIMEFROM BIAO...

2018-08-01 14:58:28 509

python的DBUtils包

下载之后解压,然后将里面的DBUtils复制到anaconda的lib的site-packages中就可以了,然后在console中import,不报错就成功

2018-10-12

metabase安装包

Metabase是一个简单、开源的数据呈现方式,通过给公司成员、分析师新建Question,从而得到数据进行分析、学习。

2018-10-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除