机器学习
文章平均质量分 66
jp_zhou256
这个作者很懒,什么都没留下…
展开
-
Stacking思想的Python3代码再现
Stacking思想的代码再现本文源于对Stacking思想的理解,尝试使用Python3.5,在Spyder中将其思想转化为代码实现,并将本文内容安排如下:1.Stacking原理(宏观和微观解释)2.使用本文Stacking代码测试Iris数据集Stacking原理图1.1.网上广为接受的原理图:(宏观)【宏观图】将训练集划分成了X_train和X_test两个集合。然后将X_...原创 2018-10-14 22:55:56 · 2821 阅读 · 1 评论 -
25个Java机器学习工具&库
本列表总结了25个Java机器学习工具&库:1. Weka集成了数据挖掘工作的机器学习算法。这些算法可以直接应用于一个数据集上或者你可以自己编写代码来调用。Weka包括一系列的工具,如数据预处理、分类、回归、聚类、关联规则以及可视化。2.Massive Online Analysis(MOA)是一个面向数据流挖掘的流行开源框架,有着非常活跃的成长社区。它包括一系列的机器学习算法(分...转载 2019-02-25 08:55:29 · 300 阅读 · 0 评论 -
weka中的各种算法说明
1) 数据输入和输出 WOW():查看Weka函数的参数。 Weka_control():设置Weka函数的参数。 read.arff():读Weka Attribute-Relation File Format (ARFF)格式的数据。 write.arff:将数据写入Weka Attribute-Relation File Format (ARFF)格式的文件。2) 数据预处理 N...转载 2019-02-27 09:48:00 · 1946 阅读 · 0 评论 -
LDA主题模型练习1
**1.**本文针对LDA主题模型进行学习和联系,核心摘要如下:**2.**NLP中的共现对应条件概率(独立时最特殊),最大似然估计计算字符的共现例子:**3.**LDA主题模型代码实例#-*-coding:utf8-*-import jiebadir1='E:/ssssszzz/lda/'def stopwordslist(filepath): stopwords = [l...原创 2019-03-31 11:16:18 · 991 阅读 · 1 评论 -
GaussianHMM和ensemble.bagging的例程
import numpy as npimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn.linear_model import RidgeCV, LassoCVfrom sklearn.model_selection import train_test_splitfrom sklearn.ensembl...转载 2019-03-31 09:33:48 · 1884 阅读 · 1 评论 -
Excel中多个模型的ROC曲线的同时绘制
1.ROC曲线绘制2.AUC计算原理1.ROC(receiver operating characteristic curve )曲线,中文名是接受者操作特性曲线,ROC是指在特定刺激条件下,以被试在不同判断标准下所得的虚报概率P(y/N)为横坐标,以击中概率P(y/SN)为纵坐标,画得的各点的连线。常常被用于说明二分类应用中模型性能的好坏!直观地说,ROC左上角的曲线越凸(突出的弧度越大)...原创 2019-04-26 19:06:57 · 14120 阅读 · 2 评论 -
基于SVD分解的简易菜品推荐系统
简易推荐系统功能:1.基于物品相似度,向同一用户推荐不同的相似商品(user:items=1:N);2.基于用户相似度,将同一商品推荐给不同的未购买用户(users:item=N:1);#coding=utf-8"""简易推荐系统: 1.基于物品相似度,向同一用户推荐不同的相似商品(user:items=1:N); 2.基于用户相似度,将同一商品推荐给不同的未购买用户(u...原创 2019-04-29 20:03:15 · 1160 阅读 · 0 评论 -
DataFrame和Series练习
主要练习DataFrame的import pandas as pdzhou=[[1,2,3,4],[5,6,7,8]]df=pd.DataFrame(zhou,columns=['x1','x2','x3','x4'])df1=df.copy() #拷贝一个DataFrame的副本import osimport datetimeimport nump...原创 2019-05-01 11:25:08 · 618 阅读 · 0 评论 -
sklearn多标签分类算法练习
1.例1import numpy as npimport pandas as pdimport scipyfrom scipy.io import arff#数据集data, meta = scipy.io.arff.loadarff('D:/Programs/meka1.9.2/data/Yeast.arff')df = pd.DataFrame(data)columns1=df...转载 2019-05-12 15:02:02 · 2620 阅读 · 1 评论 -
恐怖袭击等级预测量化与ARMIA时间序列建模的例子
一.恐怖袭击的全球分布量化图:(量化分类由k-means算法得)# coding:utf-8import pandas as pdimport mpl_toolkits.basemap #地图只在Spyder中加载是成功的!!!import matplotlib.pyplot as pltimport seaborn as snsplt.style.use(...原创 2019-05-19 11:10:10 · 1776 阅读 · 1 评论 -
weka和meka的.bat批量处理命令小结
1.weka和meka中都可以先导入数据,然后直接选择模型配置各项参数,然后右键复制模型配置参数,粘贴到记事本中再做少量添加就变成了可执行的命令行命令。命令行执行可以输出各个样本预测的概率和标签。2.最笨的命令行方式(需要批量处理的文件个数少时)weka和meka均适用。2.1.wekacd D:/Programs/weka-3.9/Weka-3-9java weka.classifie...原创 2019-02-28 11:06:36 · 782 阅读 · 0 评论 -
银行间市场评论员文章词云绘制效果
本文以《中国金融》银行间市场金融科技标准化建设一文为原始材料,对改文章做了自定义分词,并统计词频,最后绘制词云。以期通过机器来认识机器思维和人的思维之间存在的一些差异。对《杀死一只知更鸟》中律师阿蒂克斯的这句话自己有了很深的认同感--------去掉那些形容词,剩下的就是事实了!名词在人们思维中确实是扮演了非常重要的角色,因为名词往往用来说明时间、地点、人物、事情、概念、实体、类、关系或联系、属性...原创 2019-01-09 10:01:57 · 783 阅读 · 0 评论 -
常见的几种最优化方法(梯度下降法、牛顿法、拟牛顿法、共轭梯度法等)
常见的几种最优化方法(梯度下降法、牛顿法、拟牛顿法、共轭梯度法等) 我们每个人都会在我们的生活或者工作中遇到各种各样的最优化问题,比如每个企业和个人都要考虑的一个问题“在一定成本下,如何使利润最大化”等。最优化方法是一种数学方法,它是研究在给定约束之下如何寻求某些因素(的量),以使某一(或某些)指标达到最优的一些学科的总称。随着学习的深入,博主越...转载 2018-11-09 21:19:58 · 437 阅读 · 0 评论 -
基于Bayes和SVM的垃圾邮件分类实现(改进版)
对本文标题进行分词和提取关键词,本文关键词如下:分类、垃圾邮件分类(spam)、Bayes、SVM、改进版(体现在哪里?)。本文不对Bayes、SVM原理做过多的摄入和解释,主要是使用这些算法做一个基础的baseline以供后续学习和查阅。本文主要内容是讲解以下五方面的内容:···1.分类中混淆矩阵的本质···2.垃圾邮件分类原理···3.对原始垃圾邮件内容的全套数据处理过程实现···4....原创 2018-11-26 16:49:15 · 4448 阅读 · 2 评论 -
weka java.io.IOException: Read unknown nominal value P2for attribute class (line: 20306)
最近weka3.8中遇到这么一个问题,百思不得解:在命令行下面,我想要通过weka命令将.csv文件转换成.arff文件:java weka.core.converters.CSVLoader C:\Users\Administrator\Desktop\train0.csv > C:\Users\Administrator\Desktop\train0.arff但是遇到了这么一个bug...原创 2018-11-30 00:00:20 · 737 阅读 · 0 评论 -
10折交叉验证中数据集的简易划分方式总结
DataFrame中自己手动做10折交叉验证时,实现采样出一折后,对原始的总的数据的索引集合与采样出的那一折的索引集合做差,获得另外的9折的索引用于构造训练集。"""1.10折交叉验证中数据的随机划分函数"""def cross_10folds(path,columns1): import原创 2018-12-08 18:51:31 · 9047 阅读 · 0 评论 -
构造正负样本:drug特征和atc特征和类标签
pos_sample_df是一个drug和ATC编码之间是否有associations的邻接矩阵,我需要根据这个矩阵来实现正负样本的构造。即:邻接矩阵中drug和ATC有边则用来构造正样本,无边用来构造负样本。其中有2000种drug,3000个ATC,drug和ATC的特征均为500x1,邻接矩阵中的1为正样本标签,0为负样本标签。拼接后的一个样本为1001x1的列向量。import nump...原创 2018-12-06 15:21:52 · 706 阅读 · 0 评论 -
使用post提交表单的爬虫小程序
本文针对复杂数据网站进行数据爬取测试,本文使用的爬虫工具是psotman,通过postman来模拟和尝试生成post连接,以找出爬虫URL的准确形式,最后将代码整合后形成完整的批量化数据爬取代码。1.爬取ctd药物数据网站上的drug数据:ctd数很多生物研究常常使用的大型数据库之一,但是要想每次粘贴进去4000个药物名称进行批量查询和下载,往往会导致数据库的反应时间过长,文件过大中途与服务器...原创 2018-12-27 18:55:48 · 1443 阅读 · 0 评论 -
logistic regression using Theano and stochastic gradient descent
本文是学习Theno教程做的网页版笔记!后续的学习过程中会重点关注如下的网站:http://deeplearning.net/tutorial/logreg.htmlhttps://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006...原创 2018-12-22 16:12:05 · 256 阅读 · 0 评论 -
Python3 PCA理解小攻略
主成分分析(Principal Component Analysis,PCA), 是一种多元统计方法,也广泛应用于机器学习和其它领域。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。它的主要作用是对高维数据进行降维。PCA把原先的n个特征用数目更少的k个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的k个特征互不相关。关于PCA...原创 2018-12-23 17:52:26 · 1724 阅读 · 0 评论 -
10折交叉验证深入理解
交叉验证(Cross Validation),有的时候也称作循环估计(Rotation Estimation),是一种统计学上将数据样本切割成较小子集的实用方法,该理论是由Seymour Geisser提出的。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报...原创 2018-12-25 15:22:08 · 65222 阅读 · 17 评论 -
Apriori和FPgrowth代码实例
本文分别使用商场购物篮数据集和电影数据集来分别针对Apriori和FPgrowth进行实际的运用和学习。1.dataset:https://github.com/ywchiu/python_for_data_science 中的Data文件夹下面有具体数据。按照本文的csv文件进行读取即可。2.Apriori用于购物篮分析2.1.代码import numpy as npimport m...原创 2019-01-13 13:54:09 · 1244 阅读 · 0 评论 -
sklearn中的投票机制学习笔记
投票机制(voting)是集成学习里面针对分类问题的一种结合策略。基本思想是选择所有机器学习算法当中输出最多的那个类。机器学习分类算法的输出有两种类型:一种是直接输出类标签,另外一种是输出类概率,使用前者进行投票叫做硬投票(Majority/Hard voting),使用后者进行分类叫做软投票(Soft voting)。 sklearn中的投票机制使用VotingClassifier来实现。1....原创 2019-01-13 21:09:30 · 7957 阅读 · 0 评论 -
Kaggle竞赛中最终成为0.3%的获奖经验
自动化数据准备及协作平台Dataland的联合创始人Lavanya Shukla,在博客上分享了她在Kaggle竞赛中最终成为0.3%的获奖经验。先放上原文地址:https://www.kaggle.com/lavanyashukla01/how-i-made-top-0-3-on-a-kaggle-competitionKaggle经典房价预测题目(Advanced Regression ...转载 2019-06-16 12:53:15 · 1683 阅读 · 0 评论