君溪竹-CSDN博客

原创 stack模型融合

#coding:utf-8import numpy as npimport pandas as pdfrom sklearn.metrics import roc_auc_scorefrom sklearn.cross_validation import cross_val_scorefrom sklearn.svm import SVCfrom sklearn.ensemble imp

2017-05-01 14:32:15 1021

原创 gensim的使用方法(备忘)

#coding:utf-8texts = [['human', 'interface', 'computer'], ['survey', 'user', 'computer', 'system', 'response', 'time'], ['eps', 'user', 'interface', 'system'], ['system', 'human', 'system', 'eps'],

2017-03-19 21:00:04 1715

Hyperopt库为python中的模型选择和参数优化提供了算法和并行方案。机器学习常见的模型有KNN,SVM，PCA，决策树，GBDT等一系列的算法，但是在实际应用中，我们需要选取合适的模型，并对模型调参，得到一组合适的参数。尤其是在模型的调参阶段，需要花费大量的时间和精力，却又效率低下。但是我们可以换一个角度来看待这个问题，模型的选取，以及模型中需要调节的参数，可以看做是一组变量，模型的质量标准

2017-03-04 11:28:22 25780 9

原创 R语言中的SMOTE算法的参数解释

在R的DMwR包中提供了SMOTE函数用于不平衡的分类问题，其背后的原理是SMOTE算法。SMOTE函数产生一个新的数据集来解决分类不平衡的问题。用法： SMOTE(form, data, perc.over = 200, k = 5, perc.under = 200, learner = NULL, …) 参数解释: form:描

2017-02-26 20:43:44 16026 1

原创利用R语言的DMwR包处理样本不平衡

在R的DMwR包中提供了SMOTE函数用于不平衡的分类问题，其背后的原理是SMOTE算法。SMOTE函数产生一个新的数据集来解决分类不平衡的问题。用法： SMOTE(form, data, perc.over = 200, k = 5, perc.under = 200, learner = NULL, ...) 参数解释: form:描述预测问题的公式 data:原始的不平衡的数据集 k

2017-02-26 20:35:14 6085

原创 python多进程爬取天气信息

受人之托，需要指定时间段内将近15个月的120个城市的每日天气情况。查看网络，发现一个发布各个城市的历史天气的网址，http://lishi.tianqi.com，观察网址发现其具有一定的规律性：比如http://lishi.tianqi.com/putian/201609.html指的是莆田的2016年9月的天气，前缀网址是一个固定的字符串“http://lishi.tianqi.com/”。然后

2017-01-28 20:32:08 642

翻译 pybrain的神经网络文档部分翻译

Pybrain的安装$ git clone git://github.com/pybrain/pybrain.git$ python setup.py install详细信息参看http://wiki.github.com/pybrain/pybrain/installation.快速入门神经网络是由模块（module）组成并且由连接组成，你可以把它看成是一个无环图，模块就是节点而边就是连接。

2017-01-28 18:09:39 1708

原创 JAVA的集合框架

java的集合框架支持两种类型的容器：一种是为了存储一个元素集合，简称为集合；一种是为了存储键/值对，称为图。对象集合的根接口是Collection，这是公共方法有：add(o:E):boolean //向集合中添加新的元素oaddAll(c: Collection):boolean //将c集合全部加入，求补集clear():v

2016-11-03 21:55:58 242

原创药大贴吧用户数据资料爬取与简单分析

使用python爬虫连接到药大贴吧的首页，然后爬取每个话题的链接。将链接记录到一个列表中。打开列表中的链接，读取第一页页的用户的主页链接和话题下的帖子页数。将用户的主页连接记录到一个集合中。如果发现有多页，就记录每一页的连接，再从这些连接中读取用户的主页连接记录到集合中。这样可爬取首页下所有用户的主页url。依次从集合中取出URL，打开主页，记录用户名称，性别，粉丝数，关注者的信息，发帖量等资料

2016-05-30 09:23:11 4168

原创百度贴吧爬虫---药科大学贴吧的用户信息爬取

'''进入百度贴吧的主页，爬取各个主题的链接进入以后翻页爬取该主题下的所有用户的主页URL,进入用户的资料页记录用户的吧龄，帖子数量，性别，粉丝数量关注者数量，关注者列表的页面和粉丝页面的连接。该代码在win7,python2.7,64位.pycharm运行正常'''#coding:utf-8import urllib2import refrom bs4 import Beautiful

2016-05-28 13:47:38 1143

原创 python爬虫爬取百度贴吧的信息

# -*- coding: utf-8 -*'''提取中国药科大学贴吧的第一页的话题信息和话题下第一页的言论、发帖时间以及会员昵称'''import sysfrom bs4 import BeautifulSoupimport reimport urllib2def themecontent_get(url,dic): urlope

2016-05-18 18:09:45 629

翻译 python pyodbc文档翻译

pyodbc英文文档https://code.google.com/archive/p/pyodbc/wikis/GettingStarted.wiki连接数据库直接连接到数据库并创建一个游标：cnxn = pyodbc.connect('DRIVER={SQL Server};SERVER=localhost;DATABASE=testdb;UID=me;PWD=pass')

2016-05-14 09:32:34 3960

qq_34139222的博客