自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

cxlhuihui的博客

技术小白的日常

  • 博客(10)
  • 收藏
  • 关注

原创 机器学习-xgboost

xgb中参数分为三类1.通用参数2.集成参数3.任务参数1)随机森林在ligthgbm(有很多集成算法)中有,里面更全。2)xgboost(里面有gdbt是树的串型叠加的各种包,梯度增强的方法)里面没有随机森林包。    xgboost是一个支持多种数据格式的库。libsvm数据存储格式,xgboost里面的数据格式xgboost.DMatrix(数据)3)交叉验证是一个评估方法,是xgb自带的函...

2018-06-29 18:02:13 227

原创 机器学习-特征选择

1.特征筛选1)计算变量的相关性,对线性模型一般有效,非线性效果不明显。2) 给予模型的特征选择,如lr选择正则化或随机森林输出特征的总要度。3)RFE逐步特征选择。sklearn在工业界通常不考虑效率,真正工业界用xgboost和lightgbm多。2.模型评估和参数调优1)数据切分、可能切偏,真正使用数据乱序加上交叉验证。2)k折交叉验证(分层抽样通常,保证比例),交叉验证得分。3)网格搜索,...

2018-06-29 14:31:23 406

原创 机器学习-总览

1.分类就是学习一个决策边界2.过拟合和正则化(减缓过拟合的方法)3.最大间隔分类器SVM,本身是线型切分,想变化成非线型切分是需要加入核函数,低纬度没办法切开所以要映射到高纬度当中切分。4.决策树 ID3,c4.5,cart选特征,对应的筛选指标信息增益、增益率、基尼系数。5.随机森林,选择部分特征,放回抽样。6.分桶时间numpy.digitize(x,bin)取到桶的id7.数据可能在不一样...

2018-06-29 13:25:18 160

原创 C#如何抓取网页某个时间断之后的数据

            string regex = "<td class=\"art_tit\"><a href=\"(?<text>[^\"]*).*title=\"(?<title>[^\"]*\")";            MatchCollection mces = RegexUtil.GetGroupByR

2018-06-20 10:07:25 237

原创 C#是如何做爬虫的

            //创建URL,并创建请求            HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url);            //携带cookie            request.CookieContainer = CookieContainer;            //发送请求,并获取H...

2018-06-14 10:44:40 1578

原创 用户画像和系统推荐

1.隐语义模型2.word2vector模型在推荐系统当中的应用3.推荐系统评估指标打分系统:均方根,平均绝对误差top n 推荐:准确率(推荐正确的/推荐的)vs召回率(推荐正确的/用户实际浏览的)覆盖率(对平台而言):推荐系统消除马太效应,覆盖率计算商品的曝光率,引入信息商,每个商品曝光的概率一样时信息熵最大多样性(对用户而言推荐item不是单一的):相似度时效性等。。。4.推荐系统(基于内容...

2018-04-19 16:43:07 1324

原创 python-可视化matplotlib和seaborn

1.echart可做出更精美的图片,matplotlib和seaborn可以对数据进行简单的可视化操作2.series或dateframe转化成array使用方法.values,在可视化过程中尽量用np数组的形式3.%matplotlib inline 图是嵌入在notebook里面的不是跳出来一个框的形式4.matplotlib.pyplot作图的子模块5.x = np.arange(0., 1...

2018-04-19 16:22:51 813

原创 pandas操作总结

1.如何转换数据类型:dollarizer = lambda x: float(x[1:])chipo.item_price = chipo.item_price.apply(dollarizer)2.读取表格数据:不仅可以使用read_csv还可以使用read_tableusers = pd.read_table('https://raw.githubusercontent.com/justma...

2018-04-19 15:52:43 842

原创 python读写csv

1.python处理csv数据表import pandas as pdaa=pd.read_csv('chulihangnew20180419.csv',encoding='GBK')#注意这里的encoding有可能出错,csv是GBK或是utf-8b=aa['t3s']list=b.tolist()list_new=[]for str in list:    str=str.replace('...

2018-04-19 10:58:03 125

原创 python-mysql的连接操作

1.如何用python连接数据库并进行相关操作import pymysql#数据库的相关信息dbconn=pymysql.connect(host="114.113.151.71",user="fd_data",password="fd_data",port=3306,database='financialdata')#数据库语句sqlcmd="SELECT CODE FROM tbl_fund_...

2018-04-19 10:52:03 162

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除