自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 资源 (15)
  • 收藏
  • 关注

原创 比较好的爬虫源码

第一个:https://zhuanlan.zhihu.com/p/23928595https://github.com/qiyeboy/IPProxyPool

2016-11-28 20:53:31 5644

转载 特征选择, 经典三刀

感觉文章写的很好,故转过来,如有不当,请通知后马上删除。http://mp.weixin.qq.com/s?__biz=MzIzMDA1MTM3Mg==&mid=2653077415&idx=1&sn=5a036534000cb7566e78e0e315242fe2&chksm=f36f44e4c418cdf2c62936fb9213dbdb27241dd28f44521549a704379a

2016-11-28 20:48:44 31847

原创 【Kaggle——Liberty Mutual Group: Property Inspection Prediction】:如何刷入TOP-10

题目地址为https://www.kaggle.com/c/liberty-mutual-group-property-inspection-prediction这里先占个坑,描述大概思路,然后详细介绍怎么做这个比赛。并且承诺最后放出源码。首先是任务:In this challenge, your task is to predict a transformed

2016-11-27 21:13:19 1244

原创 时序预测(网络流量预测)方法调研总结

是和某公司合作的项目,调研报告,为了不影响合同,仅仅给出目录,方便有需要的人按图索骥。主要分为线性时间序列预测模型、非线性时间序列预测模型、神经网络时间序列预测模型、Boosting预测模型、GM预测模型等。线性时间序列模型 2(一)自回归模型(AR(p)) 2(二)滑动平均模型(MA(q)) 2(三)ARMA(p,q)模

2016-11-27 20:44:48 14206 3

原创 Selenium总结:模拟浏览器动态加载页面

相信爬取大公司的数据时,常常会遇到页面信息动态加载的问题,如果仅仅使用content = urllib2.urlopen(URL).read(),估计信息是获取不全的,这时候就需要模拟浏览器加载页面的过程,selenium提供了方便的方法,我也是菜鸟,试了很多种方式,下面提供觉得最靠谱的(已经证明对于爬取新浪微博的topic、twitter under topic完全没问题)。

2016-11-27 20:13:53 5233 2

转载 Selenium2(WebDriver)总结:启动浏览器、设置profile、加载插件

http://www.cnblogs.com/puresoul/p/4251536.html本文主要记录下在使用selenium2/webdriver时启动各种浏览器的方法、以及如何加载插件、定制浏览器信息(设置profile)等环境搭建可参考我的另一篇文章:http://www.cnblogs.com/puresoul/p/3483055.html

2016-11-08 10:56:11 3581

转载 python爬虫,selenium使用,Firefox-chrome-IE问题解决方法,selenium的基本操作

关于什么是selenium和为什么使用selenium,自己搜资料。下面是比较好的系统介绍:https://selenium-python.readthedocs.io/installation.htmlhttps://seleniumhq.github.io/selenium/docs/api/py/api.html#selenium

2016-11-07 10:48:35 2927

转载 神作:深入浅出傅里叶变换

确实写的不错,保存一下。自己再简单总结一下:第一,辨别时域与频域。第二,知道傅里叶分析是连接时域和频域的方法之一;福利也分析分为傅里叶级数和傅里叶变换。第三,傅里叶级数,就是我们常说的,把(时域上)连续周期函数,分解成(无穷)多个(时域上)连续周期函数。第四,傅里叶变换,就是我们常说的,把下面是相关页面,保存这么多,怕某个

2016-11-03 18:09:39 1524

挖掘DBLP作者合作关系,FP-Growth算法实践

挖掘DBLP作者合作关系,FP-Growth算法实践 包括三个代码,一堆结果文件

2017-04-07

Chrome_IE_driver_X64_X32.rar

Chrome_IE_driver 64位32位都有,很好用,已测试。

2016-11-07

dblp测试数据集

dblp测试数据集, 包括十六个会议的【部分内容】, 使用SDM, ICDM, ECML-­PKDD, PAKDD, WSDM, DMKD, TKDE, KDD Explorations, ACM Trans. On KDD, CVPR, ICML, NIPS, COLT、 CVPR、SIGIR、SIGKDD 十六个会议,至少从2000年至今的所有数据。 应用代码参考:http://blog.csdn.net/mmc2015/article/details/50988375 确实花了我很多时间搜集

2016-03-26

entity linking源码

使用lucene、lingpipe做实体连接(Entity Linking)。 数据来自dbpidia。 原始博客参考: http://blog.csdn.net/mmc2015/article/category/5795687 绝对值得参考。

2016-01-17

sql server 2008安装教程

sql server 2008安装教程,绝对详细。 每一步一个图。 不会的请留言,

2015-09-12

机器学习数据集,20news-bydate.rar

主要是解决这里的问题:http://blog.csdn.net/mmc2015/article/details/47971253#reply。数据集下载不下来,还是用现成的吧。

2015-09-06

20news-bydate.tar.gz

机器学习;数据集;20news; 机器学习数据集,主要是为不能用程序正常下载的同学准备。

2015-09-06

java读xml文件jar包

java读xml文件jar包,关于如何读写XML,参考:http://blog.csdn.net/mmc2015/article/details/47860133

2015-08-22

javaweb连接数据库包mysql-connector-java-5.1.27-bin.jar

javaweb连接数据库包 mysql-connector-java-5.1.27-bin.jar

2015-08-15

java操作excel包 jxl.jar

java操作excel包 jxl.jar

2015-08-15

java发送邮件jar包 activation.jar

java发送邮件jar包 activation.jar

2015-08-15

java发送邮件jar包 mail.jar

mail.jar java 发送邮件的jar包

2015-08-15

mysql-connector-java-5.1.27-bin.jar

mysql-connector-java

2015-08-15

中文《机器学习实战》(注解版).pdf

中文版的《机器学习实战》。 和网上资源不同的是,加入了自己的注解,是初学者学习起来有重点,易理解。

2015-07-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除