自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 stack模型融合

#coding:utf-8import numpy as npimport pandas as pdfrom sklearn.metrics import roc_auc_scorefrom sklearn.cross_validation import cross_val_scorefrom sklearn.svm import SVCfrom sklearn.ensemble imp

2017-05-01 14:32:15 1021

原创 gensim的使用方法(备忘)

#coding:utf-8texts = [['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system', 'response', 'time'], ['eps', 'user', 'interface', 'system'], ['system', 'human', 'system', 'eps'],

2017-03-19 21:00:04 1715

翻译 python调参神器hyperopt

Hyperopt库为python中的模型选择和参数优化提供了算法和并行方案。机器学习常见的模型有KNN,SVM,PCA,决策树,GBDT等一系列的算法,但是在实际应用中,我们需要选取合适的模型,并对模型调参,得到一组合适的参数。尤其是在模型的调参阶段,需要花费大量的时间和精力,却又效率低下。但是我们可以换一个角度来看待这个问题,模型的选取,以及模型中需要调节的参数,可以看做是一组变量,模型的质量标准

2017-03-04 11:28:22 25780 9

原创 R语言中的SMOTE算法的参数解释

在R的DMwR包中提供了SMOTE函数用于不平衡的分类问题,其背后的原理是SMOTE算法。SMOTE函数产生一个新的数据集来解决分类不平衡的问题。 用法: SMOTE(form, data, perc.over = 200, k = 5, perc.under = 200, learner = NULL, …) 参数解释: form:描

2017-02-26 20:43:44 16026 1

原创 利用R语言的DMwR包处理样本不平衡

在R的DMwR包中提供了SMOTE函数用于不平衡的分类问题,其背后的原理是SMOTE算法。SMOTE函数产生一个新的数据集来解决分类不平衡的问题。用法: SMOTE(form, data, perc.over = 200, k = 5, perc.under = 200, learner = NULL, ...) 参数解释: form:描述预测问题的公式 data:原始的不平衡的数据集 k

2017-02-26 20:35:14 6085

原创 python多进程爬取天气信息

受人之托,需要指定时间段内将近15个月的120个城市的每日天气情况。查看网络,发现一个发布各个城市的历史天气的网址,http://lishi.tianqi.com,观察网址发现其具有一定的规律性:比如http://lishi.tianqi.com/putian/201609.html指的是莆田的2016年9月的天气,前缀网址是一个固定的字符串“http://lishi.tianqi.com/”。然后

2017-01-28 20:32:08 642

翻译 pybrain的神经网络文档部分翻译

Pybrain的安装$ git clone git://github.com/pybrain/pybrain.git$ python setup.py install详细信息参看http://wiki.github.com/pybrain/pybrain/installation.快速入门 神经网络是由模块(module)组成并且由连接组成,你可以把它看成是一个无环图,模块就是节点而边就是连接。

2017-01-28 18:09:39 1708

原创 JAVA的集合框架

java的集合框架支持两种类型的容器: 一种是为了存储一个元素集合,简称为集合; 一种是为了存储键/值对,称为图。 对象集合的根接口是Collection,这是公共方法有:add(o:E):boolean //向集合中添加新的元素oaddAll(c: Collection):boolean //将c集合全部加入,求补集clear():v

2016-11-03 21:55:58 242

原创 药大贴吧用户数据资料爬取与简单分析

使用python爬虫连接到药大贴吧的首页,然后爬取每个话题的链接。将链接记录到一个列表中。打开列表中的链接,读取第一页页的用户的主页链接和话题下的帖子页数。将用户的主页连接记录到一个集合中。如果发现有多页,就记录每一页的连接,再从这些连接中读取用户的主页连接记录到集合中。这样可爬取首页下所有用户的主页url。 依次从集合中取出URL,打开主页,记录用户名称,性别,粉丝数,关注者的信息,发帖量等资料

2016-05-30 09:23:11 4168

原创 百度贴吧爬虫---药科大学贴吧的用户信息爬取

'''进入百度贴吧的主页,爬取各个主题的链接进入以后翻页爬取该主题下的所有用户的主页URL,进入用户的资料页记录用户的吧龄,帖子数量,性别,粉丝数量关注者数量,关注者列表的页面和粉丝页面的连接。该代码在win7,python2.7,64位.pycharm运行正常'''#coding:utf-8import urllib2import refrom bs4 import Beautiful

2016-05-28 13:47:38 1143

原创 python爬虫爬取百度贴吧的信息

# -*- coding: utf-8 -*'''提取中国药科大学贴吧的第一页的话题信息和话题下第一页的言论、发帖时间以及会员昵称'''import sysfrom bs4 import BeautifulSoupimport reimport urllib2def themecontent_get(url,dic):    urlope

2016-05-18 18:09:45 629

翻译 python pyodbc文档翻译

pyodbc英文文档https://code.google.com/archive/p/pyodbc/wikis/GettingStarted.wiki连接数据库直接连接到数据库并创建一个游标:cnxn = pyodbc.connect('DRIVER={SQL Server};SERVER=localhost;DATABASE=testdb;UID=me;PWD=pass')

2016-05-14 09:32:34 3960

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除