自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

baoFeng_Li的博客

想捉住夏日萤光,想在内心铸就铮铮铁骨

  • 博客(35)
  • 收藏
  • 关注

原创 Anaconda 从github或者本地离线安装第三方包(详细)

前言:参加一个建模比赛,在使用python的时候很多模块官方并没有,不能够直接conda install 或者pip install。看网上的离线安装也多是.whl文件或者tar.bz2等。也有文章介绍了从github中下载后该如何做,但是却只介绍了pip的方法,并不能直接用在anaconda的jupyter notebook 上。故在此记录作为一个参考。正文:这里假设我们要使用一个叫py...

2019-01-24 10:11:45 31605 11

原创 探索数据之自相关图分析(一)

前言: 作为探索数据的第一部分,本文先给出时间序列,自相关图,平稳性检验等概念。后续补充相应的python代码。该篇文章主要摘自王燕的《应用时间序列分析》,有兴趣深入了解的读者可参照这本书。正文:时间序列的定义:拿到一组观察值序列之后,我们首先要对他的平稳性和纯随机性进行检验,这也叫做序列的预处理,根据检验的结果我们会采用不同的分析方法,也会用对应的不同模型。描述时间序列的特征统...

2018-11-27 00:05:24 26572 3

原创 python引用和对象,浅拷贝和深拷贝

关键:在python中的分为 可变数据对象(列表,字典) 和 不可变数据对象(整型,字符串,浮点型,元祖)。可变的意思是引用之间会相互影响,不可变则不会相互影响。如果是可变对象的话就算是函数参数传递也会相互影响,即函数内部对对象的操作也会影响函数外部的 l = [1,2,3] def func(t): t[0] = 100 func(l) print...

2018-10-26 20:58:00 275

原创 数学里的协方差和皮尔逊相关系数到numpy模块的cov()和corrcoef()函数

仅适用本人记录 博文:https://blog.csdn.net/lyl771857509/article/details/79439184重点: 1.方差和样本方差的不同点,除以样本数N还是除以N-1。 2.协方差计算的是特征之间的而非样本之间的。 3.cov()的原型为cov(m,y=None,rowvar=True,bias=False,ddof=None,fweights=...

2018-08-14 21:30:14 1373

原创 Python3中用map()批量地转换数据类型,例如str转float

我们知道map() 会根据提供的函数对指定序列做映射。 第一个参数 function 以参数序列中的每一个元素调用 function 函数,返回包含每次 function 函数返回值的新列表。先看一下map()在python2和3中的区别 在python2中:in:a = [1,2,3];b = [2,3,4]c = map(lambda x,y:s+y,a,b)c...

2018-08-09 22:07:47 12396

原创 回归算法与偏差方差的平衡

前言: 本篇文章基于《机器学习实战》第八章回归部分,加上了自己的理解。回归算法与偏差方差的平衡一、标准线性回归标准回归函数和数据导入函数from numpy import *def loadDataSet(fileName): numFeat = len(open(fileName).readline().split('\t')) - 1 dataMat...

2018-08-08 10:54:07 826

转载 numpy.linalg ——numpy中包含线性代数函数的模块

前言: 本篇主要由博主xie仗剑天涯的总结,博文: https://www.cnblogs.com/xieshengsen/p/6836430.html这里主要整理格式,给自己作为记录正文:线性代数numpy.linalg模块包含线性代数的函数。使用这个模块,可以计算逆矩阵、求特征值、解线性方程组以及求解行列式等。import numpy as np1. 计算逆矩阵...

2018-08-05 23:22:45 2916

原创 提升方法之AdaBoost算法

利用AdaBoost元算法提高分类性能生成简单数据集def loadSimpleData(): dataMat = matrix([[1.,2.1], [2.,1.1], [1.3,1.], [1.,1.], [...

2018-08-05 22:27:00 248

原创 支持向量机的代码实现

前言: 本篇文章主要实现了《机器学习实战》的支持向量机部分,我在代码中也尽量描述了对应公式的哪些变量。我建议搭配《统计学习方法》进行实战,下面这篇博文对于公式推导也是很不错的。 https://blog.csdn.net/u011067360/article/details/26503719另外本篇依赖于jupyter notebook。故在代码后面会出现相应的结果。正文:...

2018-08-01 21:03:10 4953 1

原创 python矩阵和array数组之间的转换

前言: array数组要转换成矩阵(matrix)数据类型才能进行一系列的线性运算。matrix类型也有时候要转换成array数组。代码: 1.array转matrix:用mat()a = arange(3*2).reshape(3,2)print('array类型:')print(type(a))print(a)b = mat(a)print('matrix类型:')...

2018-07-31 10:41:21 18377

原创 机器学习——数学基础

前言:适用本人,在学习中记录要用的数学知识。1.约束最优化问题求解:拉格朗日乘子法和KKT条件 https://blog.csdn.net/DawnRanger/article/details/53133450

2018-07-23 10:34:39 395

原创 机器学习实战——朴素贝叶斯分类

准备数据:从文本中构建词向量前期测试函数用的数据def loadDataSet(): '''创建一些实验样本''' postingList = [['my','dog','has','flea','problems','help','please'], ['maybe','not','take','him','to','dog','p...

2018-06-23 18:09:23 1062

转载 DataFrame排除特定行

Pandas删除数据的几种情况 https://www.cnblogs.com/cocowool/p/8421997.htmlpandas.DataFrame排除特定行 https://www.cnblogs.com/wuzhiblog/p/python_pandas.html

2018-06-13 10:05:11 1131

原创 KNN算法知识集

数学知识: 李航《统计学习方法》,叙述了K邻近算法,K邻近模型和它的三要素(距离度量、K值、分类决策规则),然后讲解了算法实现的数据结构——kd树,和基于这个树的搜索kd树算法。一些数学细节的补充: https://www.cnblogs.com/eyeszjwang/articles/2429382.html 讲解了Kd树的原理、例子和伪代码。在python上的实现: https...

2018-06-08 10:29:51 290

原创 Python数据挖掘之用图挖掘同样喜欢梅西的的人

前言: 本次同样在twitter上进行数据挖掘,主题是构建图,计算相似度,找到同样喜欢梅西的人,之后可以进行好友推荐,或者用户建群等。 编辑工具:anaconda 的jupyter notebook,所以会直接在代码后面跟上输出。 数据集:如果不想麻烦的弄数据的话,可以跳过下面获取数据步骤,直接使用文末数据,导入即可。获取Twitter好友数据写入授权令牌import tw...

2018-05-29 22:55:27 1252

原创 使用朴素贝叶斯进行社会媒体挖掘之推特

前言: 本文参考《python数据挖掘入门与实践》第六章,进行twiitter社会媒体挖掘。学完后感觉对社会媒体挖掘领域很有兴趣,往后会深入研究。正文:下载新的Twitter语料授权令牌信息获取网址:https://apps.twitter.com/ 具体操作可google。 以下XXXX为需填入的信息,如果不想自己下载可以在文末网盘找到我的数据,跳过此步骤。导入twitte...

2018-05-25 12:39:36 1680 1

原创 用python对twitter进行数据挖掘之TimeoutError

问题一:TimeoutError: [WinError 10060] A connection attempt failed because the connected party did not properly respond after a period of time, or established connectio n failed because connected host h...

2018-05-23 11:45:52 1161 1

原创 用Anaconda下载第三方库——小tips

前言: 在准备安装twitter库时,用python自带的pip下载能安装成功,但是却不能在jupyter notebook中导入。应该是路径的问题,有机会试一下。于是用conda安装,但是在cmd下安装不了(有些库anaconda没有)。 解决: 登陆: https://anaconda.org/搜索:twitter 选择:对应系统的库 复制:命令行 完成下载...

2018-05-22 17:06:20 1747

原创 特征工程——用转换器抽取特征

用pandas加载数据集文件adult.dataimport osimport pandas as pddata_folder = "E:\DataMining\Project\dataming_with_python\Adult"adult_filename = os.path.join(data_folder,"adult.data")adult = pd.read_csv(adult_fi...

2018-05-18 11:01:58 615

原创 java泛型详解及它的应用

泛型的本质: 类型参数化引入目的:建立具有类型安全的集合框架,如链表,散列表等数据结构他山之石: 1.作者:VieLei 侧重:详解 地址:https://blog.csdn.net/s10461/article/details/539410912.作者:Josh Juneau 侧重:例子应用 地址:http://www.oracle.com/technetwork/cn/a...

2018-04-15 17:03:12 268

转载 String[] args 的意义及myeclipse中输入命令行参数

意义: *String[] args: args是“参数”的缩写,可以改成任意的名字。 args存贮的是命令行参数,可用于程序中。 *支持从命令行输入参数: String[] args这个字符串数组是保存运行main函数时输入的参数 的,例如 main函数所在的类名为test那么你在cmd运行java test ...

2018-04-15 10:14:17 881

转载 python 编码问题 UnicodeEncodeError: 'ascii' codec can't encode characters in position 37-40

问题: 对于一个url连接例如”www.abc.cn/name=北京”这样一个链接,如果直接用urlopen读取会报错:UnicodeEncodeError: 'ascii' codec can't encode characters in position 37-40: ordinal not in range(128) 解决: 解决办法就是使用urllib.parse.quot...

2018-04-07 18:50:26 7061

原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte

前言: 在我使用pandas模块对csv文件读取时报错:UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte在查找资料后,发现大部分都不怎么适用,所以在这里做个记录。如果你在读取文件时(csv,table等等)出现类似错误,可以参照如下。分...

2018-03-29 15:39:26 24758 6

转载 他山之石——后缀树

匠心十年的文章《后缀树》 https://www.cnblogs.com/gaochundong/p/suffix_tree.html努力的小何的文章《后缀树的构造方法-Ukkonen详解 》 http://blog.163.com/lazy_p/blog/static/13510721620108139476816/...

2018-03-17 10:38:33 234 1

原创 基于Aprion算法的电影推荐

前言: 最近在参加比赛,选了推荐系统的赛题。接触到了各种推荐系统的算法,学习了许多大神的论文。非常感谢他们的科研,让我们能更注重于应用。这篇文章权当做个引子,后续会补充我比赛的具体。知识储备: Apriori算法可以说是经典的亲和性分析算法。它只从数据集中频繁出现的商品中选取共同出 现的商品组成频繁项集(frequent itemset),避免了上述复杂度呈指数级增长的问题。一...

2018-03-16 21:17:03 4402 1

原创 Python pandas模块之Dataframe操作汇集

前言: 在学习过程,不断地接触到dataframe,而数据框也确实是非常好用的。故在此总结一下我遇到问题查的的资料。如果有没说到的望补充。创建dataframe: 创建dataframe的数据集可以是列表,数组和字典>>> df = pd.DataFrame([1, 2, 3, 4], columns=['one'], index=['a','b','c','d'...

2018-03-07 10:41:44 664

原创 决策树学习之概念理解和代码实现

前言: 在学习《python数据挖掘入门与实践》的决策树球队预测后,为了更好的了解决策树学习,我又阅读了李航老师的《统计学习方法》决策树章节内容。这本书被许多大神极力推荐,我在阅读后也发现确实不负盛名。我将在这做个小结,希望能够起到引导作用。什么是决策树? 决策树是一种基本的分类和回归方法,这里主要讨论分类决策树。举个例子,你和一个女生能不能在一起是个分类问题,它包括能在一起与不能在一起。...

2018-03-05 22:32:39 427

原创 《python数据挖掘入门与实践》决策树预测nba数据集

前言: 学到决策树预测球队输赢时,按照书中网址去下载数据集,无奈怎么也没下载成功。即使下载了excel文件也是破损的。咱可是学了python的银,那好吧,我就把它爬取下来。(资源在下面)代码:''' 爬取《python数据挖掘入门与实践》提到的nba赛况 https://www.basketball-reference.com/leagues/NBA_2014_game...

2018-02-12 12:14:28 5018 6

原创 python os.path.isfile()因参数问题判断错误

目的: 找出路径坐在的所有python文件(.py结尾),返回列表。 接收的参数是***路径+文件名***,所以不单单是`fname`或者`path`。

2018-02-10 16:00:20 5417

转载 python操作文件,文件夹

前言: 当当当~转载stackoverflow上的答案,学习python操作文件,文件夹的一些栗子。这对于读取文件蛮有用的。这里说明一下,我只记录了python3的。正文: os.listdir(): get files in current dir (Python 3)>>> import os>>> arr = os.listdir()>...

2018-02-10 15:06:23 309

原创 Python练习-合并excel表格

前言: 这个栗子本来打算是要合并自己下载的数据集,但是尝试了好久!!才发现是.xls文件损坏了…我忍…在练习过程遇到不少bug,若是小伙伴有疑问可以提一提,说不定我遇到过,恍恍惚惚…代码:''' #excel_combine.py 操作:实例化Excel_Combine_tool(),参数有2个:文件夹位置,表单名字 再save()方法 说明:代码中pr...

2018-02-10 14:43:20 582 1

原创 Python爬取足球网站赛况

前言: 本次爬取数据本意为了作为学习决策树,但发现构造特征时因不了解足球赛制,难以构造出较好的特征。如果有小伙伴也对这个感兴趣的话就和我交流交流吧~~代码:''' #get_tata.py 获取uhchina.com的14-15西甲赛况(未作清洗) 关键是观察爬取数据的情况'''from urllib.request import urlopenfrom bs4 impo...

2018-02-09 19:37:00 3923

原创 遍历函数iterrows()和enumerate()

iterrows():说明:是属于DataFrame(数据框)的遍历函数使用:一般与循环搭配for index, row in dataframe.iterrows(): ...返回:(index,row)对enumerate():说明: enumerate()是python的内置函数,同时获得索引和值使用:一般与循环搭配for index,item in

2018-02-06 20:18:26 10769

原创 Sklearn库的train_test_split()

作用:将数据集随机划分为训练集和测试集使用:X_train,X_test,Y_train,Y_test = train_test_split(X,Y,random_state = 0)返回:X_train,X_test,Y_train,Y_test参数: X:原始数据集中的样品特征 Y:原始数据集中的预测结果 random_state:该组随机数的编号,重复划分时一样的数值保证

2018-02-06 17:50:12 575

原创 Python的numpy模块之zeros()

使用:import numpy as np np.zeros((数组形状),dtype,older)返回:一个指定形状的数组,其元素为0的指定type参数:数组形状:(5,) (5,5) dtype: ‘float’, ‘int’… older: C表示行优先,F表示列优先(可选参数)例子: np.zeros(2) -------->array([0., 0

2018-02-06 16:43:58 13347

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除