![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大幅度
sphinxrascal168
这个作者很懒,什么都没留下…
展开
-
把两个毫不相关dataframe中的字段合并在一起
df_target = pd.DataFrame(df_pct[(df_pct.ts_code == code)].sort_values(by=['date'],ascending=False)) df_xiang = pd.DataFrame(df_target['ts_code'].head(1)) df_hebing = pd.merge(df_pct,pivot_df,on=['date'],how='inner') df_hebing = df_hebing[:-...原创 2022-04-03 21:54:15 · 498 阅读 · 0 评论 -
lightgbm调参后人工修改的结果记录20220216
761688clf = LGBMClassifier(reg_alpha=0.15,reg_lambda=10,num_leaves=60,max_depth=7,n_estimators=1500, learning_rate=0.01,bagging_fraction=0.7,bagging_freq=10,max_bin=150, min_data_in_leaf=30,feature_fraction=0.7,r...原创 2022-02-16 21:10:50 · 607 阅读 · 0 评论 -
布林线的python定义
#布林线相关指标,shift(-1),向上移动1格,也就当前行变成下一行,在这里就是未来的某一天,+1就是向下移动,就是过去的一天df1['upper_BBANDS'],df1['mid_BBANDS'],df1['lower_BBANDS'] = ta.BBANDS(df1['close'].values,timeperiod=5,nbdevup=2,nbdevdn=2,matype=0)df1['mid_BBANDS_xielv'] =ta.LINEARREG_SLOPE(df1['mid_BBA原创 2022-02-11 09:50:52 · 1028 阅读 · 0 评论 -
删除的东西
日的#逐行检查后决定删除的变量df1 = df1.drop([ 'open', 'high', 'low', 'close', 'pre_close', 'change', 'vol', 'amount', 'trade_date_1', 'index_x', 'pe', 'pb', 'total_share', 'total_mv', 'index_y', 'macd', 'macd_hist', 'macd_bidaxiao', 'macd_jincha', 'macd_jc_5count', '原创 2021-07-09 08:41:46 · 524 阅读 · 0 评论 -
变量归类的方法
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.metrics import mean_squared_errorimport mathfrom math import sqrtfrom datetime import datetimeimport copynp.ra...原创 2021-06-23 17:11:00 · 416 阅读 · 0 评论 -
时间,把字符串改成日期是原样,数字则从1970开始
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.metrics import mean_squared_errorimport mathfrom math import sqrtfrom datetime import datetimeimport copynp.ra...原创 2021-06-21 16:37:59 · 213 阅读 · 0 评论 -
2021-03-11 python保留和删除
from sklearn.feature_selection import RFE, RFECVfrom sklearn.svm import LinearSVCfrom sklearn.datasets import load_irisfrom sklearn import model_selectioniris = load_iris()X, y = iris.data, iris.target## 特征提取estimator = LinearSVC()selector = RFE(.原创 2021-06-18 09:43:29 · 269 阅读 · 0 评论 -
求日期的年和该年的第几周,用于合并周数据
# 数据,来自数据库,指定日期第一段sqlcmd1 = "select * from a_hisdata.hisdata_week order by ts_code,trade_date ASC"df1 = pd.read_sql(sqlcmd1, dbconn)df1 = df1.sort_values(by=['ts_code','trade_date'],ascending=True)df1['trade_date'] =pd.to_datetime(df1['trade_date']).原创 2021-05-26 22:33:24 · 64 阅读 · 0 评论 -
照片识别
import exifreadimport reimport jsonimport requestsimport os#转换经纬度格式def latitude_and_longitude_convert_to_decimal_system(*arg): """ 经纬度转为小数, param arg: :return: 十进制小数 """ return float(arg[0]) + ((float(arg[1]) + (float(arg[2].spl...原创 2021-05-13 18:02:27 · 177 阅读 · 0 评论 -
python保存和调用模型
2.创建文件目录,保存模型import osfrom sklearn.externals import joblib# 创建文件目录dirs = 'testModel'if not os.path.exists(dirs): os.makedirs(dirs) # 保存模型joblib.dump(LR, dirs+'/LR.pkl')3.读取模型# 读取模型LR = joblib.load(dirs+'/LR.pkl')test = np.array([[3,4...原创 2021-03-27 22:57:58 · 1405 阅读 · 1 评论 -
loc选取数据的实质是按index
loc选取数据,实际上是对index标注true和false,把true的留下来#-*- coding: utf-8 -*-import pandas as pddf1 = pd.read_excel('testdf.xlsx')print(df1)df2 = df1print(df2)df3 = df1.loc [df1['kemu2']>80]print(df3)df4 = df1.loc [df2['kemu2']>80]print(df4)print.原创 2021-03-26 09:01:14 · 226 阅读 · 0 评论 -
选取上市超过一定天数的,关于日期8位数标准格式
#想删掉部分上市不久的import tushare as tsts.set_token('79acf3c40ec0f32a2510645fe2f84461900550e3edc36feb5fa289b8')pro = ts.pro_api()import timeimport datetimetoday=datetime.date.today()#oneday=datetime.timedelta(days=1)today=int((today).strftime("%Y%m%d"))#规范原创 2021-03-25 22:29:22 · 130 阅读 · 0 评论 -
使用stack集成模型的方法之一
import sklearnfrom lightgbm.sklearn import LGBMClassifierclf = LGBMClassifier(num_leaves=90,max_depth=7,n_estimators=1000,learning_rate=0.1,bagging_fraction=0.9,bagging_freq=80,max_bin=250,min_data_in_leaf=31,feature_fraction=0.6)#frac就是选多少特征来训练from skl原创 2021-03-23 17:23:07 · 353 阅读 · 0 评论 -
过采样的处理方法
#判断正样本比例,及样本均衡import mathzongliang = len(train_data)zhen_1 = train_data['target'].sum()zheng_ratio = zhen_1/zongliang#放量高中低zhen_2 = math.ceil(zongliang*0.3+1)p_zong = np.where(zheng_ratio<0.3,zhen_2,zhen_1)#n_zong = np.where(zheng_ratio>0.7,z原创 2021-03-23 16:59:33 · 416 阅读 · 0 评论 -
调个参数可好
clf = LGBMClassifier(num_leaves=90,max_depth=7,n_estimators=1000,learning_rate=0.1,bagging_fraction=0.9,bagging_freq=80,max_bin=250,min_data_in_leaf=31,feature_fraction=0.6)#frac就是选多少特征来训练原创 2021-03-23 14:28:23 · 58 阅读 · 0 评论 -
以时间作为文件名的后缀
import osimport datetimenowTime = datetime.datetime.now().strftime('%m%d_%H_%M') # 现在print(nowTime)df.to_excel('reslut'+nowTime+'.xlsx')原创 2021-03-18 15:16:47 · 529 阅读 · 0 评论 -
大幅度
df1['lisan_zhangfu'] = ta.STDDEV(df1['pct_chg'].values,period=28)/(df1['c_ma5']+0.00001)原创 2021-03-12 20:54:04 · 72 阅读 · 0 评论 -
用树模型选择特征变量,可见哪些变量
#-*- coding: utf-8 -*-#提取日历史数据import pandas as pdfrom finta import TA #金融指标库,我这里使用它帮我计算均线值import numpy as npimport matplotlib.pyplot as pltimport seaborn as sns # 这个库可以用来画 heatmap 图import pymysqlimport timeimport datetimeimport sklearnfrom s.原创 2021-03-12 11:17:03 · 165 阅读 · 0 评论 -
特征选择-可用
特征选取1、删除方差低的特征from sklearn.feature_selection import VarianceThresholdX = [[0, 0, 1], [0, 1, 0], [1, 0, 0], [0, 1, 1], [0, 1, 0], [0, 1, 1]]sel = VarianceThreshold(threshold=(.8 * (1 - .8)))sel.fit_transform(X)#fit相当于建模,并没有应用sel.fit_tra...原创 2021-03-12 09:16:37 · 153 阅读 · 0 评论 -
决策树的可视化及通过决策树筛选变量
from dtreeviz.trees import dtreevizviz = dtreeviz(clf, iris['data'], iris['target'], target_name='', feature_names=np.array(iris['feature_names']), class_names={0:'setosa',1:'vers.原创 2021-03-11 16:55:03 · 1205 阅读 · 1 评论 -
分组及统计
import mathdef add_label(data,k): label = [math.ceil(i/k) for i in range(1,len(df)+1)] return labeldf = df.sort_values(by=['age'],ascending=False)df['group'] = add_label(df,k=10)#df['group'] = df['group'].apply(str)#看一下每组是不是10个print(df..原创 2021-03-10 14:38:41 · 131 阅读 · 0 评论 -
给dataframe增加分组号
def add_label(data,k): label = [int(i/k+1) for i in range(len(df))] return labeldf['group'] = add_label(df,k=10)原创 2021-03-08 17:45:45 · 244 阅读 · 0 评论 -
APP聚类分析
#-*- coding: utf-8 -*-#提取日历史数据import pandas as pdimport numpy as npimport pymysqlimport timeimport datetimefrom sqlalchemy import create_engineimport sklearnfrom sklearn.tree import DecisionTreeClassifier as DTfrom sklearn.model_selection impo..原创 2021-02-06 11:43:36 · 317 阅读 · 1 评论 -
变量探索的3个重要工具
# 数据,来自数据库,指定日期第一段sqlcmd = "select * from a_hisdata.hisdata_feature_20201031"df1 = pd.read_sql(sqlcmd, dbconn)mpg = pd.read_sql(sqlcmd, dbconn)mpg = mpg.drop('level_0',axis=1)mpg.head()# import sweetviz as sv#正常使用# my_report = sv.analyze(mpg,..原创 2020-12-21 17:10:07 · 138 阅读 · 0 评论 -
2020-12-03
path='C:\\Users\\HUANGJINLONG407\\Downloads\\roadmap.xlsx'data=pd.read_excel(path,encoding='gbk')###设定每列的字符宽度mat = "{:35}\t{:35}\t{:35}"def dk(x,mat): bb=mat.format(str(x[0]).strip(),str(x[1]).strip(),str(x[2]).strip()) return...原创 2020-12-03 17:02:08 · 67 阅读 · 0 评论 -
陈伟谈创新
我从事智能推荐方面的工作,我对工作中的创新有3点体会:创新需要刻意的搜集和积累,沉浸在具体的场景里,感受到我开在每一朵花上,漫天的我落在枫叶、雪花上,笔记本在写我,歌声在唱我,创新在找我。创新需要的是,我,是融入世界的我。 创新要创意多,也要能快速实践,不能像一条98条腿的蜈蚣,多是多,每一只脚都穿鞋,才能出发,一切已晚,创新需要的是,我,是勇往直前的我。 创新需要新奇、新颖,还需适时出现,让人感受到意义。就如同我下面这个比喻:时光如水,价值如鱼,创新是诱饵,我们是垂钓的人。创新需要的是,我,是一个原创 2020-07-28 14:53:42 · 111 阅读 · 0 评论 -
SOM KONOHEN
#初始化输入层与竞争层神经元的连接权值矩阵def initCompetition(n , m , d): #随机产生0-1之间的数作为权值 array = random.random(size=n * m *d) com_weight = array.reshape(n,m,d) return com_weight#计算向量的二范数def cal2NF(X...原创 2020-01-02 21:30:09 · 183 阅读 · 0 评论 -
处理异常
# -*- coding:utf-8 -*-import pandas as pdimport pymysqlfrom sqlalchemy import create_engine## 加上字符集参数,防止中文乱码dbconn = pymysql.connect( host="127.0.0.1", database="test", u...原创 2018-04-28 14:51:59 · 160 阅读 · 0 评论 -
EXCEL
=IF(ISERROR(SEARCH("我",A1)),"没有","有")原创 2019-04-27 18:46:45 · 100 阅读 · 0 评论 -
工作分工
类型 序号 项目名称 优先级 具体工作内容 预期目标/关键产出物 FTE(现有人力+需求人力) 项目经理 成员 新增人力需求 LUM精准营销 1 新一贷 高 优化意向模型、孵化事件营销规则、模型与规则线上化、每月主题营销活动支持 50万预授信客群经营、每月主题活动目标放款20亿元 3 余天翔 ...翻译 2018-07-31 08:52:35 · 497 阅读 · 0 评论 -
加三个指标
一个是89日线上顶一个是89日线下模一个短线多头回探:5日线上传14日线和34日线,当日仍是多头,但是已开始下跌,且最低价低于最低的34日线原创 2018-07-12 10:52:14 · 148 阅读 · 0 评论 -
学习曲线,调试模型
# -*- coding: utf-8 -*-'''''Created on 2018年1月18日@author: Jason.F@summary: 判别过拟合和欠拟合学习曲线Learning Curve:评估样本量和指标的关系验证曲线validation Curve:评估参数和指标的关系'''import pandas as pdfrom sklearn.preprocessi...原创 2018-06-20 17:05:28 · 334 阅读 · 1 评论 -
把正方形矩阵,比如相关系数矩阵,转化为3列以便做网络图
# -*- coding:utf-8 -*-import pandas as pdimport numpy as npdata=pd.read_excel('D:\\simil.xlsx')print data.head()###索引变成列#dd.reset_index(inplace=True)####列转行bfm=pd.melt(data,id_vars=['index...原创 2019-08-05 10:14:09 · 597 阅读 · 0 评论 -
交叉严重 crossvalidation
交叉只是做验证,让不至于过拟合,次数一般自己来定# -*- coding:utf-8 -*-from sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifierfrom sklearn.mode...原创 2019-08-05 10:17:49 · 135 阅读 · 0 评论 -
用excel画瀑布图
主要是数据组织方式的问题原创 2019-09-19 09:05:04 · 269 阅读 · 0 评论 -
邮箱设置和打码问题
打码失败可以尝试:在py12306\py12306\user\ job这个文件的192行正确格式应该为:'RAIL_EXPIRATION': 'xxxxxxxx''RAIL_DEVICEID': 'xxxxxxxx'这个意思吗?-----以上先登录12306,按F12-application-左侧cookie中查看邮箱设置py12306/helpers/notificati...原创 2019-09-18 22:26:18 · 1007 阅读 · 0 评论 -
解决TensorFlow报错的问题,因为numpy的版本过高
问题2019年09月06日 15:23:03 GodLordGee 阅读数 201 文章标签: pythontensorflowimport报错版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/GodLordGee/article/details/100579932问题描述心血来潮...原创 2019-09-16 17:19:01 · 7221 阅读 · 0 评论 -
mysqldb
这时候不要相信网上说的一些方案,什么吧mysql的lib目录下的dll文件copy到python的site-packages目录下,什么网上下载两个dll文件放到python的site-packages目录下,统统不要信。原因是:MySQLdb不支持python3.x,没错就这么简单解决方案:python3.x中用了pymysql来代替MySQLdb,所以先要将pymysql包安装上:...原创 2019-09-13 21:51:49 · 728 阅读 · 0 评论 -
除了交叉验证之外的lgm代码
# -*- coding:utf-8 -*-import jsonimport pandas as pdimport pymysqlimport sklearnfrom sqlalchemy import create_engineimport numpy as npimport lightgbm as lgbfrom sklearn import datasetsfrom s...原创 2019-08-12 14:22:15 · 275 阅读 · 0 评论 -
转置转化与股票数据处理
# -*- coding:utf-8 -*-import numpy as npimport pandas as pdimport pymysqlimport sklearnfrom sqlalchemy import create_engine## 加上字符集参数,防止中文乱码dbconn = pymysql.connect( host="127.0.0.1",...原创 2019-08-06 17:50:13 · 115 阅读 · 0 评论