- 博客(30)
- 资源 (2)
- 收藏
- 关注
原创 网络爬虫综述
什么是网络爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫的应用网络爬虫的前世今生Python爬虫框架简介beautifulsoup4Scrapy框架学习网站Scrapy入门教程 http...
2018-05-04 23:20:37 566
原创 美团笔试编程题-9.11
题目描述:一个商家选择地址x[i],在该位置的价值为y[i]。问选择多个地址并且使得任意两个地址之差绝对值大于等于k。 输入:k,x,y 如: 2 1,3,2,5 4,5,1,1 输出: 1,3,5 10一种较笨拙的思路是: 1.先对x从小到排序 2.两层循环寻找最大价值#include <iostream>#include <vector>#include <string>
2016-09-11 23:07:06 829
原创 机器学习中评价指标总结
前言评价一个机器学习任务好坏有很多指标,最常见的是准确率(acc),但准确率在某些场合下并不是一个好的评价指标,如在类别不平衡中。其他一些常见的评价指标如下:混淆矩阵,灵敏度,特异性,精确度,召回率,F1度量,Kappa统计… …具体评价指标介绍尝试从评价指标概念,数学表示,应用场所,优缺点等方面介绍准确率(acc)
2016-07-20 17:14:28 2585
原创 机器学习笔记-SVM
一句话描述SVMSVM是一种分类的方法,是基于间隔最大化的一种监督分类学习方法。应用场景凡是判断是或否的问题强调内容,或者判断属于两类中的那一类的问题,都可优先考虑用SVM来处理,如病情分类、动物分类。核函数核函数是将在低维空间内线性不可分的数据转换为在高维空间内线性可分的一种方式。数学推导
2016-07-12 15:43:28 478
转载 无监督和有监督算法的区别
监督学习(supervised learning):通过已有的训练样本(即已知数据以及其对应的输出)来训练,从而得到一个最优模型,再利用这个模型将所有新的数据样本映射为相应的输出结果,对输出结果进行简单的判断从而实现分类的目的,那么这个最优模型也就具有了对未知数据进行分类的能力。在社会中,我们在很小的时候就被大人教授这是鸟啊,那是猪啊,这个是西瓜、南瓜,这个可以吃、那个不能吃啊之类的,我们眼里见到的
2016-07-06 16:00:43 23552 3
原创 如何在jupyter中安装R
地址:(http://irkernel.github.io/installation/)第一步:在R中安装必备包install.packages(c('rzmq','repr','IRkernel','IRdisplay'), repos = c('http://irkernel.github.io/', getOption('repos')))第二步:连接R与ju
2016-04-11 17:26:49 11752 1
原创 数据挖掘之数据探索
本文探索: 1. 探索类别特征,查看每个类别特征有多少种类 2. 探索数值特征,离散化方式 3. 去除大多数是同一值的特征 4. 处理时间型特征一、查看每个类别特征有多少种类def FindNumOfCatFeacture(data, feacture_cols, Flag_dropcat = 50): ''' 函数说明:寻找每一个类别特征有多少种种类, 及去除种类多的特征
2016-03-31 10:37:32 703
原创 数据探索之缺失值处理及代码实现
在数据挖掘中,前期数据预处理,会涉及到很多缺失值的处理问题。 现以python代码实现为例,看如何具体处理的。所需python包from pandas import Series, DataFrameimport pandas as pd寻找缺失值def FindFeactureNAorValue(data, feacture_cols, axis=0, value = 'NA', prob
2016-03-31 10:25:38 3628
转载 R语言处理类别不平衡问题
文章来源: http://www.itnose.net/detail/6185647.html#---------------------------------------------------##程序说明:类别不平衡问题处理#---------------------------------------------------## 加载数据,删除冒号和句号,并追加列名 hyper <
2016-03-09 16:31:43 3890
原创 R语言 pca相关函数
一个程序:require(graphics)pr #pr pr$sdev #特征值pr$rotation #对应特征向量
2016-02-24 15:26:14 3013
原创 XGBoost参数说明
XGBoost Parameters来源:(https://github.com/dmlc/xgboost/blob/master/doc/parameter.md) Before running XGboost, we must set three types of parameters: general parameters, booster parameters and task param
2015-12-25 15:35:14 4200
转载 scikit-learn中PCA的使用方法
scikit-learn中PCA的使用方法来源:http://blog.csdn.net/u012162613/article/details/42192293 参考:sklearn.decomposition.PCA在前一篇文章 主成分分析(PCA) 中,我基于python和numpy实现了PCA算法,主要是为了加深对算法的理解,算法的实现很粗糙,实际应用中我们一般调用成熟的包,本文就结束sci
2015-12-23 22:06:03 1793
原创 Python中机器学习库scikit-learn的安装
-前言:使用scikit-learn官网上的方法,安装总是出问题。 其方法为:pip install -U scikit-learn-重新使用下载第三方库到本地安装 需要安装的库有:numpy,scipy,matplotlib,scikit-learn 具体安装方法参考:(http://blog.csdn.net/songying2012/article/details/50384578)
2015-12-23 09:57:04 783
原创 Python第三方库的安装方法
三种安装方式文章参考:(http://www.jb51.net/article/68231.htm)1. 通过setuptools来安装python模块2. 通过pip来安装python模块在cmd中执行命令,pip install -U 库名 卸载库可以用,pip uninstall 库名 查看所有安装库及版本,pip list3. 直接从网上下载下可执行文件来安装三种方法第
2015-12-23 09:45:19 1138
转载 xgboost在Python的安装
xgboost在Python的安装第一步:在github下载xgboost,地址:github,xgboost第二步,编译生成xgboost_wrapper.dll(用于python)。用vs打开xgboost-master源文件夹下的windows文件夹,打开解决方案,官方说明是需要使用x64,release,但是我的电脑是win 8.1 32位的,只好选择了win 32
2015-12-23 09:21:53 8113
转载 R语言连接数据库
R语言连接数据库地址:R语言连接数据库(MySQL)数据是关系数据库系统中存储的统一化格式。 因此,实施我们需要非常先进和复杂的SQL查询统计计算。但是R能够轻松地连接到诸如MySql, Oracle, Sql server等多种关系数据库并且可以从它们的记录转为R中的数据帧。一旦数据是在R环境中可用,就变成了正常R数据集,并可以被操纵或使用所有强大包和函数来进行分
2015-11-05 09:10:20 1019
转载 机器学习和数据挖掘推荐书单
机器学习和数据挖掘推荐书单 有了这些书,再也不愁下了班没妹纸该咋办了。慢慢来,认真学,揭开机器学习和数据挖掘这一神秘的面纱吧!《机器学习实战》:本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic回归算法、支持向量机、AdaBoost集成方法、基于树的回归算法和分类回归树(CART)算
2015-10-30 10:31:32 1002
原创 《我与c++的第二次相遇》 --1 【重新学习c++】
【前言】一直以来,自己有在断断续续学着用着c++,但自己知道自己就没有真正熟练c++。于是自己想要系统地学习c++,也就有了这个《我与c++的第二次相遇》这个系列。我不想具体讲c++的一些什么学习笔记,具体写c++有些什么,只想记录下在自己学习的过程中,一路走过的历程。【我眼中的c++】c++是一门编程语言,对比其他我学过的语言Python、R,会感觉到他更偏底层,语言更加自由
2015-10-21 21:52:59 514
原创 《我眼中的机器学习》 --1 【数学基石】
【前言】最近有在上一个机器学习培训班,开篇老师就有在将机器学习需要哪些数学知识,总的来说是微积分、概率与数理统计、矩阵、凸优化相关知识。随着老师在讲这些内容,会感觉到自己在重新认识数学的作用。以前学数学,会感觉自己学了过不了多久就忘了,完全不知道这些东西有什么用。现在自己也会不知道这些知识怎么用,不过至少自己能够去感知数学本身所蕴含的那份美,以及他对我们这个世界的描述。【我发现】
2015-10-21 20:46:18 707
原创 《我眼中的R语言》 ——(1) 【数据结构】
【前言】最近有在学习R语言,感受到R语言在数据处理方面的强大,能够做到不需要自己编多少程序,借助其内部的一些函数和附加包就能够很好实现自己想要的功能。这样就能够真正做到把自己的想法快速实现。不过这样有一个不好的地方在于R语言中各种函数太多,很多时候怎样去找这些函数也会感觉无从下手。解决这个问题的办法是多多用R来做实际项目,熟练之后就好了。我准备写《我眼中的R语言》这个系列,就是想使自己熟练R语
2015-09-15 15:58:56 1350
原创 《我与大数据的365天》 ——(3) 【写代码观察数据变化】
体验日期:2015.9.14【为大数据我做了那些事儿】1.现在自己有在做一个有关数据的竞赛——淘宝穿衣搭配算法,想着通过做这个竞赛,来感知如何进行数据挖掘,如何数据分析。2.今天尝试着用R语言编写程序实现淘宝穿衣搭配算法,但能够感觉到自己编写很不流畅。原因在于没有用R编写过程序吧。我想编写多了就好了。3.自己为这个算法建的模型很简单,就是先找待测商品的相似商品,再找相似商品
2015-09-15 00:21:39 782 2
原创 《我与大数据的365天》 ——(2) 【在做一个淘宝穿衣搭配算法的时候,遇到坎了呢】
体验时间:2015.9.12【正在经历的那些坎】1.今天有在做淘宝穿衣搭配算法,想着怎样去实现,并编代码去实现,结果在编代码的时候遭遇了一个坎。此次,自己是采用R编写代码,但需要与数据库连接,与数据库进行交互,问题就出在这里。数据库不能识别R语言传递给他的参数,针对这个问题,自己在网上查了很多资料,都不能解决问题,整个下午都没有弄出来。这让我有些不爽耶!感觉时间不应该浪费在这里,应
2015-09-12 21:47:34 1798
原创 《我与大数据的365天》 ——(1 ) 【开启探索数据之旅】
前言:不知道什么时候自己对数据产生了兴趣,或许跟着导师做生物数据研究的时候,潜移默化地感觉到数据有那么一些好玩之处吧。在探索数据的时候,能够感觉到数据的变换能产生一些奇妙的结果,这些都让我对此痴迷。一直想用博客的方式来对自己的学习之旅记录点什么,但就是一直没有行动,或许担心自己写的不够好,或许也是不知道怎么写。不过,人生就是这么奇妙,在前天自己和哥谈论到自己现在所做的工作时,说自己现在是在做数据方
2015-09-11 10:03:26 589
转载 WindowsError的错误代码详解
转载:http://www.tuicool.com/articles/nyummujWindowsError的错误代码详解0操作成功完成。1功能错误。2系统找不到指定的文件。3系统找不到指定的路径。4系统无法打开文件。5拒绝访问。6句柄无效。7存储控制块被损坏。8存储空间不足,无法处理此命令。9存储控制块地址无效。10环境错误。1
2015-02-02 09:59:50 1053
转载 详解python2 和 python3的区别
详解python2 和 python3的区别 - Python基础教程|Python教程|Python入门 - PythonTab中文网 http://www.pythontab.com/html/2012/pythonjichu_1220/10.html1.性能 Py3.0运行 pystone benchmark的速度比Py2.5慢30%。Guido认为Py3.0有极
2015-01-28 16:29:50 579
原创 accelerated c++习题2-5
/*************************************************//程序说明:用"*"构建正方形,长方形,三角形//程序来源:accelerated c++ 习题2-5//作者:ying//时间:2014.9.12**************************************************/#include #includ
2014-09-12 11:16:40 652
原创 accelerated c++习题0-10
/*************************************************//程序说明:允许程序中每一个出现空白符的地方都换行//程序来源:accelerated c++ 习题0-10//作者:ying//时间:2014.9.8**************************************************/#include #incl
2014-09-08 17:04:53 651
转载 行为识别特征提取综述
行为识别特征提取综述转自:http://www.cnblogs.com/tornadomeet/archive/2012/06/22/2558548.html 主要参考“Human Activity Analysis: A Review”摘要 人体行为识别目前处在动作识别阶段,而动作识别可以看成是特征提取和分类器设计相结合的过程。特征提取过程受到遮挡,动态背景,移
2014-07-18 20:42:23 1297
转载 在win7系统下 opencv如何在vs2010安装
birenwin7下如何安装OpenCV 最近这段时间,所做的东西涉及到OpenCV,就来谈一下OpenCV的使用。首先就是OpenCV的安装问题,这里详细说一下。 工具环境如下: win7+VC2010+OpenCV2.4.8。 下面开始安装。 win7和VC的安装就不说了,重点是OpenCV的安装,首先下载OpenCV,版本是2.4.8
2014-07-13 13:09:00 914
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人