- 博客(24)
- 收藏
- 关注
原创 机器学习--决策树及泰坦尼克号生存预测
决策树是一个类似于流程图的树结构,分支节点表示对一个特征进行测试,根据测试结果进行分类,树叶节点代表一个类别。要判断从哪个特征进行分裂,就要对信息进行量化,量化的方式有:ID3: 信息增益条件熵:其中pi=P(X=xi),X,Y代表了两个事件,而它们之间有时有联系的(也就是联合概率分布),条件熵H(Y|X)代表了在一直随机变量X的情况下,Y的不确定性的大小。信息增益:熵H(...
2018-09-27 16:03:44 2753 1
原创 机器学习--逻辑回归及乳腺癌预测
逻辑回归算法是用来解决分类问题的算法。逻辑回归二元分类算法原理参考:http://blog.kamidox.com/logistic-regression.html逻辑回归模型由sklearn.linear_model.LogisticRegression实现实例:乳腺癌预测a. 模型训练# 加载自带乳腺癌数据集from sklearn.datasets import lo...
2018-09-26 13:04:05 4572 1
原创 机器学习--线性回归算法预测房价
算法原理:线性回归算法、最小均方差、梯度下降算法参考:http://blog.kamidox.com/gradient-descent.html里面非常详细地介绍了微积分基本运算法则、线性回归算法、梯度下降算法及改进。a. 用线性回归方法拟合正弦函数%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as n...
2018-09-25 11:33:59 9654
原创 机器学习--k近邻算法探索及糖尿病预测
算法原理:未标记样本类别由距离其最近的k个邻居投票决定。计算待标记的样本和数据集中每个样本的距离,取距离最近的k个样本,待标记样本所属类别由这k个距离最近的样本投票产生。优点:KNN原理简单,容易实现,结果精度高,无需估计参数,无需训练模型,可用于分类(投票)和回归(平均值),对异常值和噪声有较高的容忍度; 不足:当样本容量不平衡时,可能导致需预测的样本中大容量类的样本占多数;可解释性差;计...
2018-09-22 14:03:46 6626 5
原创 代价函数学习曲线
以线性回归多项式为例,探索代价函数与训练数据集大小的关系。%matplotlib inlineimport matplotlib.pyplot as pltimport numpy as npn_dots = 200# 创建数据集y=sqrt(x)X=np.linspace(0,1,n_dots)y=np.sqrt(X)+0.2*np.random.rand(n_dots)-0...
2018-09-20 14:59:22 775
原创 泰坦尼克号生存预测(三)-- 预测模型
持续更新中。。。7. 预测模型首先将train分为训练集和测试集:# 将目标变量和特征分开X_train = train.drop('Survived',axis=1)y_train = train['Survived']# 将train分为训练集和测试集# 用sklearn.model_selection 里的train_test_splitimport sklearn...
2018-09-18 00:21:45 3220 1
原创 泰坦尼克号生存预测(二)-- 特征分析
5. 特征再分析对处理过的数据再分析train[['Survived','Pclass','Sex','Age_level','Fare_log','Embarked','Familysize','isAlone','Has_Cabin','Title']].groupby('Survived',as_index=False).mean() Survived Pclas...
2018-09-14 08:32:28 2610
原创 泰坦尼克号生存预测(一)-- 数据处理
项目及数据集来自Kaggle。持续更新中......1. 提出问题建立模型预测乘客是否生还。2. 理解数据数据特征含义:survival为目标变量,其他为特征。Variable Definition Key survival Survival 0 = No, 1 = Yes pclass Ticket class 1 = 1st,...
2018-09-10 23:59:58 5249 1
原创 Python药店销售数据分析
分析目标:根据药店销售数据,分析药品销售关键指标,以及药品销售趋势1. 导入并清理数据import pandas as pd# 以object形式输入数据可保持数据原始形状,之后可用astype()转换数据格式sale_data=pd.read_excel('药店2018年销售数据.xlsx',0,dtype='object')# 1. 列名重置:更改购药时间为销售时间...
2018-09-04 01:38:42 9294 8
原创 股票数据分析
从雅虎财经上下载6家公司股票信息,并进行分析。1. 获取数据pandas_datareader.data.DataReader支持包括雅虎、谷歌在内的十数种数据来源,本篇笔记只关注来源为雅虎财经的数据。注意:直接使用pandas_datareader.data.get_data_yahoo会出现ImmediateDeprecationError,原因是Yahoo! Finance已经不...
2018-09-03 01:21:14 15731 5
原创 python实现房价预测(一)
这是一个预测房价的项目,项目来自kaggle的housing。项目的目的是预测房价,需要从众多可能的影响因子中挑选出最能预测房价的因子来建立模型,用于预测房价。分析步骤:1. 理解项目目的,再围绕目的进行分析。本项目的目的根据数据预测房价;2. 了解数据的分布特征,根据实际项目理解每列数据的意义。在数据分析时,最重要的是要熟悉业务,在业务基础上再分析,事半功倍;3. 挑选特征...
2018-09-01 23:01:04 63495 11
原创 Python气象数据分析
记录《Python数据分析实战》一书中关于意大利北部沿海地区气象数据分析的练习。此次分析的目的是验证靠海对气候的影响,因此,选取10个城市分析他们的天气数据,其中5个城市距离海100公里以内,另外5个城市距离海100~400公里距离。此外,为了避免山区气候对天气数据造成影响,选取的城市均来自平原地区。1. 加载数据集# 导入模块import numpy as npimport...
2018-08-27 01:09:01 19611 5
原创 matplotlib极坐标图、极区图、极散点图
列举三个matplotlib中在极坐标下作图的案例:1. 极坐标图import numpy as npimport matplotlib.pyplot as plt# 极坐标下需要的数据有极径和角度r = np.arange(1,6,1) # 极径theta = [i*np.pi/2 for i in range(5)] #角度# 指定画图坐标为极坐标,projecti...
2018-08-25 17:06:59 14080 1
原创 python绘图与可视化--matplotlib
主要用来记录《利用python进行数据分析》一书第8章 绘图与可视化 matplotlib绘图1. 加载模块:%matplotlib inlineimport numpy as np import matplotlib.pyplot as plt在jupyter notebook中,若不使用魔法函数“%matplotlib inline”,需要适用plt.show()使绘图显...
2018-08-09 01:07:20 741
原创 Python数据分析实战之二--某网站二手房信息(数据分析)
~~~接上一篇--数据处理~~~在对数据进行处理后,需要对数据进行分析1. 房型:a. 首先对房型分别进行分析:import numpy as npimport matplotlib.pyplot as pltimport seaborn as sns%matplotlib inline%pylab inlinepylab.rcParams['figure.figs...
2018-08-08 11:18:36 2319
原创 mac系统下matplotlib中文显示设置
在使用matplotlib绘图时,中文标签和标题无法正常显示。添加以下中文显示代码,依然无法正常显示:import matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] #用来正常显示中文标签搜索问题,发现mac电脑系统没有自带"SimHei.ttf"字体,所以无法显示。按照以下步骤解决问题:第...
2018-08-04 11:19:35 1215
原创 Python数据分析实战之一--某网站二手房交易信息(数据处理)
根据链家网二手房交易信息对二手房交易数据进行分析用到的数据包含147169条交易信息,每条交易信息包括["房型","成交时间","地址","价格","朝向","装修","建造年代","楼层","产权","面积","得房面积","有无钥匙","编号"
2018-08-02 01:15:53 3087 5
转载 Python文本处理——中文标点符号处理
转自: https://www.cnblogs.com/arkenstone/p/6092255.htmlPython文本处理——中文标点符号处理中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏。以下为在下处理中文标点的时候采用的两种方法,如有更好的工具,请推荐补充。中文标点集合 比较常见标点有这些:!?。"#$%&'()*+,-/:;<...
2018-08-01 13:18:40 3279 2
原创 中文分词-学习笔记
分词:将一个句子分成以词为单位的组成(中文都是以词组句子)分词方法:动态规划方法,维特比算法(HMM)分词工具:jieba、snowNLP、THULAC1. jiebapip install jieba算法基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录...
2018-07-31 22:04:50 380
原创 正则表达式-学习笔记
在python中加载正则表达式模块re:import re1. python的正则表达式 函数 说明 案例 match 从字符串的起始部分对模式进行匹配。成功就返回对象,失败返回None re.match(‘foo’,’foo’) search ...
2018-07-31 00:13:17 559
原创 SQL语句学习笔记-sqlzoo
SQLZOO练习笔记在练习过程中,首次出现的语法记录下来,备忘。练习中基础语句的嵌套使用就不在此记录,多练才是王道~1. BasicSELCET name, population FROM worldWHERE name = 'Germany';WHERE name IN ('Ireland','Iceland');WHERE area > 1000000;WHE...
2018-07-28 01:48:03 959
原创 Tableau联动表 -- 练习
此篇博客用来记录 Tableau 联动表生成。用到的数据为“SuperStoreSales-CN.xlsx” 接下来根据此数据作报表分析:1. 对不同产品分类的销售金额排序2. 对销售额和省市进行分析添加列的地理属性:将省份和销售额分别放入行和列,并在地图中编辑地理位置在智能显示(show me)中选择地图(需在线,本文练习时未在线),在标记栏编辑大小颜色标签。选择填充地图,显示效果为各省地图填充...
2018-07-03 15:22:04 7736
原创 Tableau在半导体封装厂中的应用
第一篇博客决定用来记录Tableau在半导体封装厂中的应用~其实在半导体封装厂由于某些客户对数据可视化美观的需求(半导体行业使用到的统计分析工具有EXCEL、JMP和Tableau,JMP的图表美观度一言难尽,客户强烈要求用Tableau),我们通常会用Tableau对产线上不良品进行统计分析,它作为不良品分析的辅助工具,可用到的地方很多,下面我会列举几种在之前的工作中用Tableau完成的不良品...
2018-07-02 17:03:06 1194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人