![](https://img-blog.csdnimg.cn/20190917184709760.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
机器学习
一匹脱缰的野马
一匹脱缰的野马
展开
-
k-means原理实现
原理如下:代码如下:import pandas as pdimport numpy as npimport matplotlib.pyplot as pltdef build_data(): ''' 准备数据 :return:准备好的数据 ''' data_list = [] with open('./test.txt')...原创 2019-09-17 22:29:27 · 157 阅读 · 0 评论 -
基于逻辑回归的癌症预测案例
加载数据给数据中的每一列起列名称#把数据的头置为空,因为要自己设置列名称data = pd.read_csv('./breast-cancer-wisconsin.data',header=None)# print(data)#增加列名columns = ['Sample code number','Clump Thickness','Uniformity of Cell S...原创 2019-09-20 22:43:08 · 1651 阅读 · 0 评论 -
基于线性回归的波士顿房价预测
波士顿数据集在sklearn中自带,使用的时候引入就可以直接使用from sklearn.datasets import load_boston#加载波士顿数据集获取特征值、目标值和列名称数据以字典的形式保存,获取的时候需要按照字典的方式提取数据feature = boston['data'] #特征值feature_names = boston['featur...原创 2019-09-20 22:14:04 · 6593 阅读 · 0 评论 -
基于朴素贝叶斯的书籍评价分类
首先需要将书籍的信息导入进来data = pd.read_csv('./data.csv',encoding='ansi')将目标值转化为数值类型好评的转化0,差评的转化为1data.loc[data.loc[:,'评价'] == '好评','评价'] = 0data.loc[data.loc[:,'评价'] == '差评','评价'] = 1data.loc[...原创 2019-09-20 20:41:25 · 733 阅读 · 0 评论 -
词汇的重要程度统计
词汇的重要程度统计可以统计出词汇在文章中的重要程度,从而对文章的类型和其他特征可以做出相应的判断from sklearn.feature_extraction.text import TfidfVectorizercontent = ['Hong Kong residents express feelings through anthem; Guangzhou Museum off...原创 2019-09-19 22:08:35 · 609 阅读 · 0 评论 -
文章中的英文和汉语词数出现次数的统计
对英文词语的统计如下import pandas as pdimport numpy as npfrom sklearn.feature_extraction.text import CountVectorizer#需要处理的文字content = ['Hong Kong residents express feelings through anthem; Guangzhou Mu...原创 2019-09-19 21:41:06 · 434 阅读 · 0 评论 -
KNN算法手写字识别案例
实验前准备如下手写字分别存储在两个文件中,一个是训练集文件,一个是测试集文件。两个文件夹下的txt文件命名格式是,下划线前面的数字代表文本内存储的文字内容,下划线后面的数字代表是第几个如:1_12.txt代表文件内存储的内容为手写字1,这是存储手写字1的第12个文件。本实验中K值与预测准确率的关系如下图实现代码如下import pandas a...原创 2019-09-19 21:16:41 · 708 阅读 · 0 评论 -
KMeans对NBA球员聚类案例分析
NBA球员数据的格式如下本文的目的主要是对NBA球员的数据进行分析,通过分析数值数据判断球员的表现,进而可以研究球员在赛场上是属于哪一类球员,下面是对结果进行雷达图的绘制对球员情况分析,并画出雷达图,代码和结果如下:import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom skle...原创 2019-09-19 19:25:34 · 3892 阅读 · 4 评论 -
KNN算法原理与自实现
KNN英文全称K-Nearest Neighbors ,中文名称为K最近邻算法,它是由Cover和Hart在1968年提出来的KNN算法原理1. 计算已知类别数据集中的点与当前点之间的距离;2. 按照距离递增次序排序;3. 选择与当前距离最小的k个点;4. 确定前k个点所在类别的出现概率5. 返回前k个点出现频率最高的类别作为当前点的预测分类这里计算使用的是欧式距...原创 2019-09-18 19:29:38 · 230 阅读 · 0 评论 -
kmeans算法示例--航空公司数据分析
航空公司的excel表中的各个数据对应的含义如下航空价值分析步骤如下航空数据分析雷达图如下解决方案 步骤如下了解航空数据的含义,观察窗口就是时间段丢弃票价为空的数据保留票价大于0,折扣不为0,飞行里程大于0的数据,---花钱坐飞机筛选特征时,筛选出与LRFMC五特征相关的数据构建特征的时候需要构建LRFMC五特征模型进行异常值处理 3s...原创 2019-09-18 15:55:14 · 1817 阅读 · 0 评论 -
超市用户的k-means聚类处理
导入超市用户的数据import pandas as pdfrom sklearn.preprocessing import StandardScaler #标准差标准化com = pd.read_csv('./company.csv',encoding='ansi')导入剔除异常值的函数def box_analysis(data): ''' 进行箱...原创 2019-09-18 11:07:30 · 1464 阅读 · 1 评论 -
金融量化交易案例
什么是量化交易?量化交易是指以先进的数学模型替代人为的主观判断,利用计算机技术从庞大的历史据中海选出能带来超额收益的多种“大概率”事件以制定策略。它极大的降低了市场波动给投资者情绪带来的影响,避免在市场极度狂热或者悲观的情况下做出非理性的投资决策。策略分析我们想要的结果就是我们在历史数据中回测表现较好的分析方法和策略。可以通过专业的网站来进行量化交易,网址如下http...原创 2019-09-23 09:30:50 · 1840 阅读 · 0 评论