机器学习与数据分析
机器学习与数据分析
i see the future
懒~~~
展开
-
【Rapidminer总结】数据分析工具之Rapidminer的重要算子--20221012
数据分析工具之Rapidminer的重要算子原创 2022-10-12 17:43:03 · 1450 阅读 · 0 评论 -
《机器学习实战Machine_Learning_in_Action》 CH14-SVD简化
一、开篇:简述SVD应用利用SVD实现,我们能够用小得多的数据集来表示原始数据集。这样做,实际上是去除了噪声和冗余信息。简而言之,SVD是一种从大量数据中提取主要关键数据的方法。下面介绍几种应用场景:1、隐性语义索引最早的SVD应用之一就是信息检索。我们称利用SVD的方法为隐性语义索引(LatentSemantic Indexing,LSI)或隐性语义分析(Latent Semantic Analysis,LSA)。在LSI中,一个矩阵是由文档和词语组成的。应用SVD时,构建的SVD奇异值代表了原创 2020-12-21 18:20:37 · 220 阅读 · 2 评论 -
《机器学习实战Machine_Learning_in_Action》CH13-PCA结合adaboost和kNN,区分IBM员工满意度高低和综合国力的高低
本文概述:先简单介绍PCA算法,再使用PCA结合adaboost分析IBM员工满意度,最后使用PCA结合kNN分析基于综合国力指标的国家分类。小结运用PCA将特征向量限定为2,可以有效进行可视化。PCA进行解释上存在困难。PCA用于分类器的数据整理,有时候可能效果一般。但在特征较多的分类器会有明显效果,在特征较少的分类器效果一般。采用PCA python源码和sklearn调包可以同时参照使用。百度硬盘分享已将数据源和代码打包上传百度硬盘,若需要数据,请打赏任意金额并留下联系邮箱,将给予原创 2020-12-16 20:06:51 · 505 阅读 · 0 评论 -
项目:利用adaboost对Employee满意度进行分类
项目介绍:利用adaboost对Employee满意度进行分类0.整理数据从https://www.datafountain.cn/datasets/12下载IBM员工满意度的虚拟数据,并做好员工满意度类型标签,并整理成txt档案。1.分析目的对员工满意度进行预测分类。2. 分析代码从实际分类效果来看,adaboost在测试集数据的错误率为20%,正确率约80%,测试效果还不错。import pandas as pdimport numpy as np%matplotlib inline原创 2020-12-15 20:57:45 · 205 阅读 · 1 评论 -
《机器学习实战Machine_Learning_in_Action》 CH07-AdaBoost元算法
第七章 利用AdaBoost元算法提高分类性能AdaBoost算法的优缺点优点: 泛化错误率低,易编码,可以应用再大部分分类器上,无参数调整。缺点: 对离群点敏感。使用数据类型: 数值型和标称型数据。bagging: 基于数据随机重抽样的分类器构造方法在原始数据选择S次后得到S个数据集的一种技术。新数据集和原数据集的大小相等。每个数据集通过原始样本中随机替换得到的。boosting收集数据:可以使用任意方法。准备数据:依赖于所使用的弱分类器类型,本章使用的是单层决策树,这种分类器原创 2020-12-14 17:48:26 · 180 阅读 · 0 评论 -
区分综合国力的分类--SVM支持向量机(3个特征)
项目介绍:利用SVM支持向量机来区分综合国力的强弱0.整理数据0.下载数据从https://www.kylc.com/stats/global/yearly_overview/g_gdp.html下载GDP、国土面积、人口等数据,并做好国家类型标签,并整理成Excel档案。1.引入svmMLiA.py并读取数据import svmMLiAimport pandas as pdimport numpy as np%matplotlib inline%matplotlib notebook原创 2020-12-08 20:05:03 · 262 阅读 · 0 评论 -
区分综合国力的分类--SVM支持向量机(2个特征)
项目介绍:利用SVM支持向量机来区分综合国力的强弱0.整理数据0.下载数据从https://www.kylc.com/stats/global/yearly_overview/g_gdp.html下载GDP、国土面积、人口等数据,并做好国家类型标签,并整理成Excel档案。1.引入svmMLiA.py并读取数据import svmMLiAimport pandas as pdimport numpy as np%matplotlib inline%matplotlib notebook原创 2020-12-08 20:04:31 · 215 阅读 · 0 评论 -
《机器学习实战Machine_Learning_in_Action》 CH06-SVM支持向量机
第六章 支持向量机SVM算法优缺点优点:泛化错误率低,计算开销不大,结果易解释。缺点:对参数调节和和核函数的选择敏感,原始分类器不加修改仅适用于处理二分类问题。范围:数值型和标称型数据。SVM分类线性支持向量机求解线性支持向量机的过程是凸二次规划问题,所谓凸二次规划问题,就是目标函数是凸的二次可微函数,约束函数为仿射函数 (满足f(x)=ax+b,a,x均为n为向量) 。而我们说求解凸二次规划问题可以利用对偶算法–即引入拉格朗日算子,利用拉格朗日对偶性将原始问题的最优解问题转化为拉格朗日对偶原创 2020-12-06 22:59:30 · 140 阅读 · 0 评论 -
项目:Matplotlib让数据可以动起来
目的数据暴增的年代,数据科学家、分析师在被要求对数据有更深的理解与分析的同时,还需要将结果有效地传递给他人。如何让目标听众更直观地理解?当然是将数据可视化啊,而且最好是动态可视化。本文将以线型图为例,系统地讲解如何让你的数据图表动起来。代码# 处理数据1import pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport matplotlib.pyplot as pltimport matpl原创 2020-12-01 23:52:16 · 185 阅读 · 0 评论 -
项目:用朴素贝叶斯分类,来判断文本判断政府工作报告 OR 哈利波特小说
目的:判断政府工作报告 OR 哈利波特小说。数据来源:互联网下载代码项目:判断政府工作报告OR哈利波特小说# 引入朴素贝叶斯import bayesfrom bayes import *# 读取数据docList=[]; classList = []; fullText =[]for i in range(1,10+1): wordList = textParse2(open('my_file/report/spam/%d.txt' % i,encoding='UTF-8'原创 2020-12-01 17:47:48 · 171 阅读 · 1 评论 -
《机器学习实战Machine_Learning_in_Action》 CH04- 朴素贝叶斯
总结:贝叶斯决策理论的核心思想是选择高概率对应的类别,即选择具有最高概率的决策。运用贝叶斯定理算法实现下面做一个简单的留言板分类,自动判别留言类别:侮辱类和非侮辱类,分别使用1和0表示。下面来做一下这个实验。以下函数全部写在一个叫bayes.py文件中,后面的实验室通过导入bayes.py,调用里面的函数来做的。1.加载数据集该函数返回的是词条切分集合和类标签。def loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', '原创 2020-11-26 17:54:21 · 154 阅读 · 0 评论 -
机器学习之逻辑回归--使用虚拟成绩进行模拟
1. 成绩通过情况的分类错误率import logRegreslogRegres.multiTest(3)#the error rate of this test is: 0.128770#the error rate of this test is: 0.201532#the error rate of this test is: 0.113930#the error rate of this test is: 0.018669#the error rate of this test is:原创 2020-11-25 17:34:22 · 248 阅读 · 0 评论 -
《机器学习实战Machine_Learning_in_Action》 CH05- Logistic回归
CH05- Logistic回归简介:logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域。例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回原创 2020-11-25 17:33:44 · 208 阅读 · 0 评论 -
《机器学习实战Machine_Learning_in_Action》 CH09-回归树
CH09-回归树理论1.树回归算法的优缺点优点:可以对复杂和非线性的问题建模.缺点:结果不容易理解.适用数据类型:数值型和标称型.2.树回归和分类树的思路类似,且方法如下收集数据:采用任意方法收集数据.准备数据:需要数值型的数据,标称型数据应该映射成为二值型数据.分析数据:汇出数据的二维可视化显示结果,以字典方式生成树训练算法:大部分时间都花费在叶节点树模型的构建上.测试算法:使用测试数据上的R*R值来分析模型的效果.使用算法:使用训练出的树做预测,预测结果还可以来做很多事情.3.连原创 2020-11-24 21:55:22 · 205 阅读 · 0 评论 -
机器学习之决策树--使用微信公众号数据
使用微信公众号数据进行分析# 导入包import pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport matplotlib.pyplot as pltfrom numpy import *from pylab import mplmpl.rcParams['font.sans-serif'] = ['SimHei']import treesimport treePlotter# 导原创 2020-11-24 18:02:01 · 168 阅读 · 0 评论 -
《机器学习实战Machine_Learning_in_Action》 CH03-决策树
3.1 构建决策树import pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport matplotlib.pyplot as pltfrom numpy import *# 导入tree.pyimport treesmyDat,labels = trees.createDataSet()labels2 = labels[:]myDat#[[1, 1, 'yes'], #[1, 1,原创 2020-11-23 19:52:46 · 184 阅读 · 1 评论 -
机器学习之回归分析--预测值
结论:在一般数据上,标准回归、岭回归、前向逐步回归效果差不多。可利用交叉分析比较出相对较优的模型。一般来说,训练数据的相关系数会高于测试数据的相关系数。1.引入regression.py和导入数据# 引入regression.pyimport regressiondf = pd.read_excel('Row_data-array.xlsx')xArr = df.iloc[:,:-1].valuesyArr = df.iloc[:,-1].valuesprint(xArr.shape)p原创 2020-11-19 23:17:25 · 2368 阅读 · 1 评论 -
《机器学习实战Machine_Learning_in_Action》 CH08-回归分析(下)
总结:第八章 预测数值型数据: 回归(下)缩减系数“理解”数据若数据的特征比样本点还多,在计算(XTX)−1的时候会出错,也就是输入数据的矩阵X不是满秩矩阵,非满秩矩阵在求逆是会出现问题。接下来介绍两种方法来解决这个问题:岭回归(ridge regression)与前向逐步回归(Forward stepwise regression),其中前向逐步回归与lasso法效果差不多。岭回归如果数据的特征比样本点还多,也就是说输入数据的矩阵x不是满秩矩阵,非满秩矩阵在求逆在求逆时会出现问题。岭回归:就是在矩原创 2020-11-18 18:12:20 · 255 阅读 · 0 评论 -
《机器学习实战Machine_Learning_in_Action》 CH08-回归分析(上)
总结:第八章 预测数值型数据: 回归线性回归算法的优缺点优点:结果容易理解,计算上下不复杂缺点:对非线性问题数据处理不好.使用数据类型:数值型和标称型数据.回归方程回归方程(regression equation),回归系数(regression weights),求回归系数的过程就是回归。说到回归,一般都是指线性回归(linear regression),还存在非线性回归模型。局部加权线性回归线性回归会出现欠拟合现象,因为它求的是最小均方误差的无偏估计。可以在估计中引入一些偏差,从而降低预原创 2020-11-16 17:49:58 · 177 阅读 · 0 评论 -
用多种特征方式来聚合国家类型 by K-均值聚类
项目背景:通过综合国力的特征值来聚类分析。.K-均值聚类算法聚类是一种无监督的学习,它将相似的对象归到同一簇中,类似全自动分类。簇内的对象越相似,聚类的效果越好。K-均值聚类是每个类别簇都是采用簇中所含值的均值计算而成。聚类与分类的区别在于分类前目标已知,而聚类为无监督分类。# kMeans.pyimport kMeans# 加载数据score_excel = pd.read_excel('WeChat20200923_np2.xlsx')score_excel = score_exc原创 2020-11-15 17:48:05 · 1771 阅读 · 0 评论 -
微信文章聚类分析 by K-均值聚类
项目背景:通过微信文章的特征值来聚类分析。将某微信文章的有利特征加总为第一特征值,将微信阅读量除以1000作为第二特征值。.K-均值聚类算法聚类是一种无监督的学习,它将相似的对象归到同一簇中,类似全自动分类。簇内的对象越相似,聚类的效果越好。K-均值聚类是每个类别簇都是采用簇中所含值的均值计算而成。聚类与分类的区别在于分类前目标已知,而聚类为无监督分类。# kMeans.pyimport kMeans# 加载数据score_excel = pd.read_excel('WeChat202原创 2020-11-14 07:41:59 · 246 阅读 · 0 评论 -
通过成绩来做人员分类 by K-均值聚类
项目背景:通过两种成绩的特征来做人员分类。K-均值聚类算法聚类是一种无监督的学习,它将相似的对象归到同一簇中,类似全自动分类。簇内的对象越相似,聚类的效果越好。K-均值聚类是每个类别簇都是采用簇中所含值的均值计算而成。聚类与分类的区别在于分类前目标已知,而聚类为无监督分类。# kMeans.pyimport kMeans# 加载数据score_excel = pd.read_excel('0803-np.xlsx')score_excel = score_excel.valuesdatMa原创 2020-11-12 22:18:57 · 553 阅读 · 1 评论 -
《机器学习实战Machine_Learning_in_Action》 CH10-K-均值聚类
本篇的数据和代码参见:https://github.com/stonycat/ML-in-Action一、K-均值聚类算法聚类是一种无监督的学习,它将相似的对象归到同一簇中,类似全自动分类。簇内的对象越相似,聚类的效果越好。K-均值聚类是每个类别簇都是采用簇中所含值的均值计算而成。聚类与分类的区别在于分类前目标已知,而聚类为无监督分类。1.1 K-均值算法的伪代码如下:创建k个点作为起始质心(通常随机选择) 当任意一个点的簇分配结果发生改变时: 对数据集中的每个点:原创 2020-11-12 21:23:37 · 151 阅读 · 0 评论 -
《机器学习实战Machine_Learning_in_Action》 CH11-毒蘑菇判断 by Apriori算法
寻找毒蘑菇The first feature is poisonous or edible. If a sample is poisonous, you get a 1. If it’s edible,you get a 2.导入数据# apriori.pyimport apriori# 加载数据mushDatSet = [line.split() for line in open('mushroom.dat').readlines()]计算支持度L,suppData=apriori.原创 2020-11-11 13:59:15 · 1390 阅读 · 0 评论 -
微信推文属性的关联分析 by Apriori算法
本文通过Apriori算法来对某公司的微信推文属性的关联分析。本文的目的找出可让 [‘阅读量超过1K’] 的因素,以便达到这些因素使微信推文阅读量提升。本文的结论若想让微信推文阅读量超过1K,该公司可从[‘公司为信息源’]、[‘文章置顶’] 、[‘公司or厂’] 或综合手段进行。[‘公司为信息源’] —> [‘阅读量超过1K’] ,几率为50%[‘文章置顶’] —> [‘阅读量超过1K’] ,几率为69%[‘公司or厂’] —> [‘阅读量超过1K’] ,几率为64%[‘原创 2020-11-10 19:35:29 · 308 阅读 · 1 评论 -
预测文章在某订阅号的受欢迎程度 by K近邻算法
项目目的:1.通过模拟测试,获知在哪些特征上着手可以写出受欢迎的文章。2.输入你将发表的文章属性,将会获得受欢迎程度的分类。0.下载数据从某订阅号下载过去半年的统计数据共计160笔(栏位见下方栏位),并做好受欢迎程度的类型标签,并整理成Excel档案。其中阅读量作为样本标签的依据,而不作为特征。1.引入kNN.py并读取数据import pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport原创 2020-11-05 23:46:43 · 306 阅读 · 0 评论 -
国家综合国力分类模型 by K近邻算法
0.下载数据从https://www.kylc.com/stats/global/yearly_overview/g_gdp.html下载GDP、国土面积、人口等数据,并做好国家类型标签,并整理成Excel档案。1.引入kNN.py并读取数据import pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport matplotlib.pyplot as pltfrom numpy import *原创 2020-11-02 19:41:54 · 630 阅读 · 1 评论 -
K近邻算法理论和代码实现
一、k-近邻算法理论1.k-近邻算法的基本原理对于未知类别属性数据集中的点:(1)计算已知类别数据集中的每个点与当前点之间的距离;使用欧式距离公式,计算两个向量点x1和x2之间的距离公式如下:(2)按照距离递增次序排序;(3)选取与当前点距离最小的k个点;(4)确定前k个点所在类别的出现频率;(5)返回前k个点出现频率最高的类别作为当前点的预测分类。2.k-近邻算法的三要素k值的选择、距离度量、分类决策规则3.k-近邻算法的评价优点(1)k-近邻算法是分类数据最简单最有效的算法,原创 2020-11-01 07:35:43 · 1484 阅读 · 2 评论 -
Machine_Learning_in_Action-CH2-K近邻算法(python3.6版本)
引入kNN.py'''Created on Sep 16, 2010kNN: k Nearest NeighborsInput: inX: vector to compare to existing dataset (1xN) dataSet: size m data set of known vectors (NxM) labels: data set labels (1xM vector) k: number o原创 2020-10-29 14:56:16 · 204 阅读 · 0 评论 -
用Python实现选股票(Pandas,Matplotlib)
找出股票中的机会# 0.设定基础数据# 股票代码和日期import pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport matplotlib.pyplot as pltimport pandas_datareader.data as webimport timestock_code='600036.SS'stock_date_from = '2010-01-01'mask='01-20原创 2020-10-26 21:14:34 · 2617 阅读 · 2 评论 -
Pandas利用时间索引合并数据
唯一的重点是:join函数默认将两个DataFrame的index进行合并import pandas as pdindex=pd.date_range('2020-6-13', periods=5)index##output##DatetimeIndex(['2020-06-13', '2020-06-14', '2020-06-15', '2020-06-16', '2020-06-17'], dtype='datetime64[ns]', freq='D')df1原创 2020-10-23 11:58:46 · 4931 阅读 · 0 评论 -
《利用Python进行数据分析》第10章 时间序列
第10章 时间序列10.1 日期和时间数据类型及工具import pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport matplotlib.pyplot as pltfrom pandas import *from datetime import datetimefrom datetime import datetimenow=datetime.now()now# datetime.d原创 2020-10-20 14:35:08 · 352 阅读 · 0 评论 -
透视表pivot_table和交叉表crosstab
本文介绍透视表pivot_table和交叉表crosstab。import pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport matplotlib.pyplot as plt1.透视表pivot table# 导入数据tips = pd.read_csv('data/tips/tips2.csv')tips['tip_pct'] = tips['tip']/tips['total_bill原创 2020-10-03 21:31:08 · 1649 阅读 · 0 评论 -
Pandas-group,agg,transform,apply
介绍 数据聚合的例子 0.groupby 1.agg 2.transform 3.applyimport pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport matplotlib.pyplot as pltfrom pandas import DataFrame,Index,Series0.df 与 groupby0.1 分组df = DataFrame({'key1':['a','a','原创 2020-10-01 22:57:53 · 239 阅读 · 0 评论 -
Matplotlib展示Finance Crisis的标准普尔指数
本文主要讲解annotate的用法,用的是标准普尔指数在Finance Crisis的例子。import pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport matplotlib.pyplot as plt检查并清洗数据# 检查1data = pd.read_csv('data/spx/spx.csv',index_col=0,parse_dates=True)data.info()#&l原创 2020-09-30 20:04:31 · 204 阅读 · 0 评论 -
海地地震危机数据分析 + 标记中山、成都、重庆、昆山所在
我们需要分析海地地震求助的数据(GitHub),并画出求助分布点。1.检查并清洗数据。2.画出dummy_frame,为点分布做准备。3.在地图上显示求助信息。1.检查并清洗数据。import pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport matplotlib.pyplot as pltfrom pandas import DataFramedata = pd.read_csv('d原创 2020-09-29 21:51:15 · 1069 阅读 · 0 评论 -
利用Python进行数据分析--USDA食品数据库分析
对USDA食品数据库进行分析,data请见https://github.com/wesm/pydata-book#导入数据# 导入数据import jsondb = json.load(open(r'data\usda_food\database.json'))# 检查数据db[0].keys()# dict_keys(['id', 'description', 'tags', 'manufacturer', 'group', 'portions', 'nutrients'])# 检查数翻译 2020-09-21 20:10:19 · 1847 阅读 · 1 评论 -
利用Python进行数据分析--美国BB Name实践(二)
将《利用Python进行数据分析》书中第2章 1880-2010年间全美婴儿姓名的项目作为练习,name数据可在GitHub中获得。拓展练习如下:1.计算指定名字的年度性别比例2.计算某个名字的相对排名3.1计算增长或减少最多的名字3.2计算年度最流行的名字4.分析名字趋势:长度#导入数据pieces=[]years=range(1880,2011)for year in years: location = 'data/names/yob%d.txt'%year fram翻译 2020-09-14 21:16:53 · 446 阅读 · 0 评论 -
利用Python进行数据分析--美国BB Name实践
利用Python进行数据分析--美国BB Name实践将书中第2章 1880-2010年间全美婴儿姓名的项目作为练习,name数据可在GitHub中获得。import pandas as pdimport numpy as np%matplotlib inline%matplotlib notebookimport matplotlib.pyplot as pltimport sys# US Baby Names 1880-2010# 读取数据# 对year和sex进行枢纽分析# 插翻译 2020-09-12 19:17:34 · 596 阅读 · 0 评论
分享