python
文章平均质量分 95
huizxhhui1994
这个作者很懒,什么都没留下…
展开
-
python_pandas库
一、 创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引:2、通过传递一个numpy array,时间索引以及列标签来创建一个DataFrame:3、通过传递一个能够被转换成类似序列结构的字典对象来创建一个Data原创 2017-12-27 09:39:22 · 517 阅读 · 0 评论 -
pandas库中drop_duplicates的小问题
下面我来解释一下,关于.drop_duplicates()括号中inplace的问题。drop_duplicates(inplace=True)是直接对原dataFrame进行操作。而drop_duplicates(inplace=False)是重新创建一个新的DataFrame并进行删除,对原DataFrame不进行改变。如:d.drop_duplicates(inplace=Tru原创 2017-12-27 09:46:31 · 2312 阅读 · 0 评论 -
随机森林(RF)与GBDT的参数比较
RandomForest随机森林随机森林和GBDT的区别:随机森林采用的bagging思想,而GBDT采用的boosting思想。这两种方法都是Bootstrap思想的应用,Bootstrap是一种有放回的抽样方法思想。虽然都是有放回的抽样,但二者的区别在于:Bagging采用有放回的均匀取样,而Boosting根据错误率来取样(Boosting初始化时对每一个训练样例赋相等的权重1/n,然后用该...原创 2018-01-24 11:06:55 · 3699 阅读 · 0 评论 -
python_主成分分析(PCA)降维
主成分分析(principal component analysis)是一种常见的数据降维方法,其目的是在“信息”损失较小的前提下,将高维的数据转换到低维,从而减小计算量。 PCA的本质就是找一些投影方向,使得数据在这些投影方向上的方差最大,而且这些投影方向是相互正交的。这其实就是找新的正交基的过程,计算原始数据在这些正交基上投影的方差,方差越大,就说明在对应正交基上包含了更多的信息量。原创 2018-01-22 10:14:37 · 24141 阅读 · 0 评论 -
python_pandas中的get_dummies使用
虚拟变量(dummy variables)虚拟变量,也叫哑变量和离散特征编码,可用来表示分类变量、非数量因素可能产生的影响。离散特征的编码分为两种情况:1、离散特征的取值之间没有大小的意义,比如color:[red,blue],那么就使用one-hot编码2、离散特征的取值有大小的意义,比如size:[X,XL,XXL],那么就使用数值的映射{X:1,XL:2,XX转载 2018-01-28 16:52:34 · 7242 阅读 · 0 评论 -
xgb模型的参数,归一化
这里要重点讲一下 Xgboost 的调参。通常认为对它性能影响较大的参数有:eta:每次迭代完成后更新权重时的步长。越小训练越慢。num_round:总共迭代的次数。subsample:训练每棵树时用来训练的数据占全部的比例。用于防止 Overfitting。colsample_bytree:训练每棵树时用来训练的特征的比例,类似 RandomF原创 2018-01-28 18:22:21 · 5082 阅读 · 0 评论 -
总结——常用的正则表达式
把开发中比较常用的正则表达式总结一下,以后需要的时候,可以直接查表。一、校验数字的表达式1 数字:^[0-9]*$2 n位的数字:^\d{n}$3 至少n位的数字:^\d{n,}$4 m-n位的数字:^\d{m,n}$5 零和非零开头的数字:^(0|[1-9][0-9]*)$6 非零开头的最多带两位小数的数字:^([1-9][0-9]*)+(.[0-9]{1,2})?$7 带1-2位小数...原创 2018-06-08 09:51:06 · 205 阅读 · 0 评论 -
python 获取本机ip
import socketdef get_host_ip(): try: s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM) s.connect(('8.8.8.8', 80)) ip = s.getsockname()[0] finally: s.close...原创 2019-07-30 09:40:43 · 484 阅读 · 0 评论