baoFeng_Li-CSDN博客

原创 Anaconda 从github或者本地离线安装第三方包（详细）

前言：参加一个建模比赛，在使用python的时候很多模块官方并没有，不能够直接conda install 或者pip install。看网上的离线安装也多是.whl文件或者tar.bz2等。也有文章介绍了从github中下载后该如何做，但是却只介绍了pip的方法，并不能直接用在anaconda的jupyter notebook 上。故在此记录作为一个参考。正文：这里假设我们要使用一个叫py...

2019-01-24 10:11:45 31605 11

原创探索数据之自相关图分析（一）

前言：作为探索数据的第一部分，本文先给出时间序列，自相关图，平稳性检验等概念。后续补充相应的python代码。该篇文章主要摘自王燕的《应用时间序列分析》，有兴趣深入了解的读者可参照这本书。正文：时间序列的定义：拿到一组观察值序列之后，我们首先要对他的平稳性和纯随机性进行检验，这也叫做序列的预处理，根据检验的结果我们会采用不同的分析方法，也会用对应的不同模型。描述时间序列的特征统...

2018-11-27 00:05:24 26572 3

原创 python引用和对象，浅拷贝和深拷贝

关键：在python中的分为可变数据对象(列表，字典) 和不可变数据对象(整型，字符串，浮点型，元祖)。可变的意思是引用之间会相互影响，不可变则不会相互影响。如果是可变对象的话就算是函数参数传递也会相互影响，即函数内部对对象的操作也会影响函数外部的 l = [1,2,3] def func(t): t[0] = 100 func(l) print...

2018-10-26 20:58:00 275

原创数学里的协方差和皮尔逊相关系数到numpy模块的cov()和corrcoef()函数

仅适用本人记录博文：https://blog.csdn.net/lyl771857509/article/details/79439184重点： 1.方差和样本方差的不同点，除以样本数N还是除以N-1。 2.协方差计算的是特征之间的而非样本之间的。 3.cov()的原型为cov(m,y=None,rowvar=True,bias=False,ddof=None,fweights=...

2018-08-14 21:30:14 1373

原创 Python3中用map()批量地转换数据类型，例如str转float

我们知道map() 会根据提供的函数对指定序列做映射。第一个参数 function 以参数序列中的每一个元素调用 function 函数，返回包含每次 function 函数返回值的新列表。先看一下map()在python2和3中的区别在python2中：in:a = [1,2,3];b = [2,3,4]c = map(lambda x,y:s+y,a,b)c...

2018-08-09 22:07:47 12396

原创回归算法与偏差方差的平衡

前言：本篇文章基于《机器学习实战》第八章回归部分，加上了自己的理解。回归算法与偏差方差的平衡一、标准线性回归标准回归函数和数据导入函数from numpy import *def loadDataSet(fileName): numFeat = len(open(fileName).readline().split('\t')) - 1 dataMat...

2018-08-08 10:54:07 826

转载 numpy.linalg ——numpy中包含线性代数函数的模块

前言：本篇主要由博主xie仗剑天涯的总结，博文： https://www.cnblogs.com/xieshengsen/p/6836430.html这里主要整理格式，给自己作为记录正文：线性代数numpy.linalg模块包含线性代数的函数。使用这个模块，可以计算逆矩阵、求特征值、解线性方程组以及求解行列式等。import numpy as np1. 计算逆矩阵...

2018-08-05 23:22:45 2916

原创提升方法之AdaBoost算法

利用AdaBoost元算法提高分类性能生成简单数据集def loadSimpleData(): dataMat = matrix([[1.,2.1], [2.,1.1], [1.3,1.], [1.,1.], [...

2018-08-05 22:27:00 248

原创支持向量机的代码实现

前言：本篇文章主要实现了《机器学习实战》的支持向量机部分，我在代码中也尽量描述了对应公式的哪些变量。我建议搭配《统计学习方法》进行实战，下面这篇博文对于公式推导也是很不错的。 https://blog.csdn.net/u011067360/article/details/26503719另外本篇依赖于jupyter notebook。故在代码后面会出现相应的结果。正文：...

2018-08-01 21:03:10 4953 1

原创 python矩阵和array数组之间的转换

前言： array数组要转换成矩阵（matrix）数据类型才能进行一系列的线性运算。matrix类型也有时候要转换成array数组。代码： 1.array转matrix：用mat()a = arange(3*2).reshape(3,2)print('array类型：')print(type(a))print(a)b = mat(a)print('matrix类型：')...

2018-07-31 10:41:21 18377

原创机器学习——数学基础

前言：适用本人，在学习中记录要用的数学知识。1.约束最优化问题求解：拉格朗日乘子法和KKT条件 https://blog.csdn.net/DawnRanger/article/details/53133450

2018-07-23 10:34:39 395

原创机器学习实战——朴素贝叶斯分类

准备数据：从文本中构建词向量前期测试函数用的数据def loadDataSet(): '''创建一些实验样本''' postingList = [['my','dog','has','flea','problems','help','please'], ['maybe','not','take','him','to','dog','p...

2018-06-23 18:09:23 1062

转载 DataFrame排除特定行

Pandas删除数据的几种情况 https://www.cnblogs.com/cocowool/p/8421997.htmlpandas.DataFrame排除特定行 https://www.cnblogs.com/wuzhiblog/p/python_pandas.html

2018-06-13 10:05:11 1131

原创 KNN算法知识集

数学知识：李航《统计学习方法》，叙述了K邻近算法，K邻近模型和它的三要素（距离度量、K值、分类决策规则），然后讲解了算法实现的数据结构——kd树，和基于这个树的搜索kd树算法。一些数学细节的补充： https://www.cnblogs.com/eyeszjwang/articles/2429382.html 讲解了Kd树的原理、例子和伪代码。在python上的实现: https...

2018-06-08 10:29:51 290

原创 Python数据挖掘之用图挖掘同样喜欢梅西的的人

前言：本次同样在twitter上进行数据挖掘，主题是构建图，计算相似度，找到同样喜欢梅西的人，之后可以进行好友推荐，或者用户建群等。编辑工具：anaconda 的jupyter notebook，所以会直接在代码后面跟上输出。数据集：如果不想麻烦的弄数据的话，可以跳过下面获取数据步骤，直接使用文末数据，导入即可。获取Twitter好友数据写入授权令牌import tw...

2018-05-29 22:55:27 1252

原创使用朴素贝叶斯进行社会媒体挖掘之推特

前言：本文参考《python数据挖掘入门与实践》第六章，进行twiitter社会媒体挖掘。学完后感觉对社会媒体挖掘领域很有兴趣，往后会深入研究。正文：下载新的Twitter语料授权令牌信息获取网址：https://apps.twitter.com/ 具体操作可google。以下XXXX为需填入的信息，如果不想自己下载可以在文末网盘找到我的数据，跳过此步骤。导入twitte...

2018-05-25 12:39:36 1680 1

原创用python对twitter进行数据挖掘之TimeoutError

问题一：TimeoutError: [WinError 10060] A connection attempt failed because the connected party did not properly respond after a period of time, or established connectio n failed because connected host h...

2018-05-23 11:45:52 1161 1

原创用Anaconda下载第三方库——小tips

前言：在准备安装twitter库时，用python自带的pip下载能安装成功，但是却不能在jupyter notebook中导入。应该是路径的问题，有机会试一下。于是用conda安装，但是在cmd下安装不了（有些库anaconda没有）。解决：登陆： https://anaconda.org/搜索：twitter 选择：对应系统的库复制：命令行完成下载...

2018-05-22 17:06:20 1747

原创特征工程——用转换器抽取特征

用pandas加载数据集文件adult.dataimport osimport pandas as pddata_folder = "E:\DataMining\Project\dataming_with_python\Adult"adult_filename = os.path.join(data_folder,"adult.data")adult = pd.read_csv(adult_fi...

2018-05-18 11:01:58 615

原创 java泛型详解及它的应用

泛型的本质：类型参数化引入目的：建立具有类型安全的集合框架，如链表，散列表等数据结构他山之石： 1.作者：VieLei 侧重：详解地址：https://blog.csdn.net/s10461/article/details/539410912.作者：Josh Juneau 侧重：例子应用地址：http://www.oracle.com/technetwork/cn/a...

2018-04-15 17:03:12 268

转载 String[] args 的意义及myeclipse中输入命令行参数

意义： *String[] args: args是“参数”的缩写，可以改成任意的名字。 args存贮的是命令行参数，可用于程序中。 *支持从命令行输入参数： String[] args这个字符串数组是保存运行main函数时输入的参数的，例如 main函数所在的类名为test那么你在cmd运行java test ...

2018-04-15 10:14:17 881

转载 python 编码问题 UnicodeEncodeError: 'ascii' codec can't encode characters in position 37-40

问题：对于一个url连接例如”www.abc.cn/name=北京”这样一个链接，如果直接用urlopen读取会报错：UnicodeEncodeError: 'ascii' codec can't encode characters in position 37-40: ordinal not in range(128) 解决：解决办法就是使用urllib.parse.quot...

2018-04-07 18:50:26 7061

原创 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte

前言：在我使用pandas模块对csv文件读取时报错：UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte在查找资料后，发现大部分都不怎么适用，所以在这里做个记录。如果你在读取文件时（csv,table等等）出现类似错误，可以参照如下。分...

2018-03-29 15:39:26 24758 6

转载他山之石——后缀树

匠心十年的文章《后缀树》 https://www.cnblogs.com/gaochundong/p/suffix_tree.html努力的小何的文章《后缀树的构造方法-Ukkonen详解》 http://blog.163.com/lazy_p/blog/static/13510721620108139476816/...

2018-03-17 10:38:33 234 1

原创基于Aprion算法的电影推荐

前言：最近在参加比赛，选了推荐系统的赛题。接触到了各种推荐系统的算法，学习了许多大神的论文。非常感谢他们的科研，让我们能更注重于应用。这篇文章权当做个引子，后续会补充我比赛的具体。知识储备： Apriori算法可以说是经典的亲和性分析算法。它只从数据集中频繁出现的商品中选取共同出现的商品组成频繁项集（frequent itemset），避免了上述复杂度呈指数级增长的问题。一...

2018-03-16 21:17:03 4402 1

原创 Python pandas模块之Dataframe操作汇集

前言：在学习过程，不断地接触到dataframe，而数据框也确实是非常好用的。故在此总结一下我遇到问题查的的资料。如果有没说到的望补充。创建dataframe：创建dataframe的数据集可以是列表，数组和字典>>> df = pd.DataFrame([1, 2, 3, 4], columns=['one'], index=['a','b','c','d'...

2018-03-07 10:41:44 664

原创决策树学习之概念理解和代码实现

前言：在学习《python数据挖掘入门与实践》的决策树球队预测后，为了更好的了解决策树学习，我又阅读了李航老师的《统计学习方法》决策树章节内容。这本书被许多大神极力推荐，我在阅读后也发现确实不负盛名。我将在这做个小结，希望能够起到引导作用。什么是决策树？决策树是一种基本的分类和回归方法，这里主要讨论分类决策树。举个例子，你和一个女生能不能在一起是个分类问题，它包括能在一起与不能在一起。...

2018-03-05 22:32:39 427

原创《python数据挖掘入门与实践》决策树预测nba数据集

前言：学到决策树预测球队输赢时，按照书中网址去下载数据集，无奈怎么也没下载成功。即使下载了excel文件也是破损的。咱可是学了python的银，那好吧，我就把它爬取下来。（资源在下面）代码：''' 爬取《python数据挖掘入门与实践》提到的nba赛况 https://www.basketball-reference.com/leagues/NBA_2014_game...

2018-02-12 12:14:28 5018 6

原创 python os.path.isfile()因参数问题判断错误

目的：找出路径坐在的所有python文件（.py结尾），返回列表。接收的参数是***路径+文件名***，所以不单单是`fname`或者`path`。

2018-02-10 16:00:20 5417

转载 python操作文件，文件夹

前言：当当当~转载stackoverflow上的答案，学习python操作文件，文件夹的一些栗子。这对于读取文件蛮有用的。这里说明一下，我只记录了python3的。正文： os.listdir(): get files in current dir (Python 3)>>> import os>>> arr = os.listdir()>...

2018-02-10 15:06:23 309

原创 Python练习-合并excel表格

前言：这个栗子本来打算是要合并自己下载的数据集，但是尝试了好久！！才发现是.xls文件损坏了…我忍…在练习过程遇到不少bug，若是小伙伴有疑问可以提一提，说不定我遇到过，恍恍惚惚…代码：''' #excel_combine.py 操作：实例化Excel_Combine_tool（）,参数有2个：文件夹位置,表单名字再save()方法说明：代码中pr...

2018-02-10 14:43:20 582 1

原创 Python爬取足球网站赛况

前言：本次爬取数据本意为了作为学习决策树，但发现构造特征时因不了解足球赛制，难以构造出较好的特征。如果有小伙伴也对这个感兴趣的话就和我交流交流吧~~代码：''' #get_tata.py 获取uhchina.com的14-15西甲赛况（未作清洗）关键是观察爬取数据的情况'''from urllib.request import urlopenfrom bs4 impo...

2018-02-09 19:37:00 3923

原创遍历函数iterrows()和enumerate()

iterrows():说明：是属于DataFrame（数据框）的遍历函数使用：一般与循环搭配for index, row in dataframe.iterrows(): ...返回：（index，row）对enumerate()：说明： enumerate()是python的内置函数，同时获得索引和值使用：一般与循环搭配for index,item in

2018-02-06 20:18:26 10769

原创 Sklearn库的train_test_split()

作用：将数据集随机划分为训练集和测试集使用：X_train,X_test,Y_train,Y_test = train_test_split(X,Y,random_state = 0)返回：X_train,X_test,Y_train,Y_test参数： X：原始数据集中的样品特征 Y：原始数据集中的预测结果 random_state：该组随机数的编号，重复划分时一样的数值保证

2018-02-06 17:50:12 575

原创 Python的numpy模块之zeros()

使用：import numpy as np np.zeros((数组形状),dtype,older)返回：一个指定形状的数组，其元素为0的指定type参数：数组形状：(5,) (5,5) dtype: ‘float’, ‘int’… older: C表示行优先，F表示列优先（可选参数）例子： np.zeros(2) -------->array([0., 0

2018-02-06 16:43:58 13347

baoFeng_Li的博客