机器学习
文章平均质量分 75
MrLeaper
这个作者很懒,什么都没留下…
展开
-
机器学习Python数据特征选定
from pandas import read_csvfrom numpy import set_printoptionsfrom sklearn.feature_selection import SelectKBestfrom sklearn.feature_selection import chi2from sklearn.feature_selection import RFEfr原创 2018-01-21 10:12:45 · 717 阅读 · 0 评论 -
机器学习python特征筛选
import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_select原创 2018-01-26 16:07:15 · 1763 阅读 · 0 评论 -
机器学习python模型正则化
这里主要是用多项式线性拟合,然后通过两种方法来优化过拟合和欠拟合from sklearn.linear_model import LinearRegressionfrom sklearn.preprocessing import PolynomialFeaturesimport numpy as npimport matplotlib.pyplot as pltX_train = [[原创 2018-01-26 18:35:07 · 1573 阅读 · 1 评论 -
机器学习python-Logistic回归
from numpy import *import matplotlib.pyplot as pltdef loadDataSet(): dataMat = [] labelMat = [] fr = open('testSet.txt') for lines in fr.readlines(): lineArr = lines.strip()原创 2018-02-02 21:55:58 · 287 阅读 · 0 评论 -
Tensorflow线性回归模型搭建
# import tensorflow as tf# import numpy as np# greeting = tf.constant('Hello Google Tensorflow!')# #启动一个会话# sess = tf.Session()# #使用会话执行greeting计算模块# result = sess.run(greeting)# print(result)原创 2018-01-27 13:57:52 · 293 阅读 · 0 评论 -
使用K近邻算法检测Rootkit、WebShell
使用K近邻算法检测Rootkit基于telnet连接的rootkit检测流程:KDD 99 数据(41维特征)->筛选与rootkit相关特征->基于tcp内容的特征->向量化->与rootkit相关的特征向量->KNN算法+10折交叉验证->评估效果1、数据搜集和清洗这里用的是KDD 99数据集,筛选标记为rootkit和normal且是telnet协议的数据...原创 2018-02-08 19:53:17 · 1168 阅读 · 2 评论 -
机器学习python-Adaboost
from numpy import *def loadSimpData(): datMat = matrix([[ 1. , 2.1], [ 2. , 1.1], [ 1.3, 1. ], [ 1. , 1. ], [ 2. , 1. ]]) classLabels = [1.0, 1.0, -1.0,原创 2018-02-04 11:42:09 · 238 阅读 · 0 评论 -
机器学习python线性回归(矩阵法求参)
from numpy import *def loadDataSet(filename): numFeat = len(open(filename).readline().split('\t')) - 1 dataMat = [] labelMat = [] fr = open(filename) for line in fr.readlines():原创 2018-02-04 22:12:00 · 1310 阅读 · 0 评论 -
机器学习python局部加权线性回归
局部加权线性回归可以解决欠拟合问题,给待测点附近的每个点赋予一定的权重通过矩阵运算的方法解出回归系数w = (XTWX)-1xTWy,通过使用“核”来对附近的点赋予权重,最常用的高斯核权重如下:w(i,i)= exp(|x(i) - x| / -2k2),对K值取不同的结果,得到的模型也不用,K越小,可能会出现过拟合,K越大,可能会出现欠拟合,这里将给出不同的K值的函数图像,这种方法加重了原创 2018-02-05 11:20:55 · 2096 阅读 · 2 评论 -
机器学习python缩减系数
如果特征比样本点多,那么对于用矩阵求解的方式就不可行,因为矩阵不可逆,这时候可以通过岭回归的方法,在矩阵XTX上加一个λr,使得矩阵可逆,那么回归系数w= (xTx+λI)-1xTy,I是单位矩阵,lam是自己定义的一个系数,同时岭回归还可以用在估计中加入偏差,从而限制w的和,通过加入这个参数,可以减少不重要的参数。这是不同的几个回归系数,横坐标是ln(lam)的值,纵坐标是回归系原创 2018-02-05 15:34:13 · 639 阅读 · 0 评论 -
使用支持向量机识别XSS
基于web日志特征,这里选取了四个特征,分别是:url长度、url中包含的第三方域名的个数、敏感字符的个数、敏感关键字的个数def get_len(url): return len(url)def get_url_count(url): if re.search('(https://)|(https://)',url,re.IGNORECASE): return ...原创 2018-02-10 17:08:06 · 856 阅读 · 1 评论 -
anaconda 安装第三方包
这里以安装hmmlearn库为例首先,在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载你需要安装的库,比如python多少位要与anaconda一致然后,在菜单栏里打开Anaconda Prompt输入 pip install whl文件的完整路径\whl文件名可以用pip list检查是否安装成功。对于绝大多少的...原创 2018-02-10 19:10:59 · 44760 阅读 · 5 评论 -
支持向量机区分僵尸网络DGA
僵尸网络一般为了躲避域名黑名单,会使用DGA动态生成域名,通过DGA不同的特征,可以识别不同的特征。DGA文件格式如下:首先从DGA文件中提取域名数据def load_alexa(filename): domain_list = [] csv_reader = csv.reader(open(filename)) for row in csv_reader: ...原创 2018-02-10 21:45:49 · 1547 阅读 · 0 评论 -
机器学习特征问题笔记1
本篇笔记学习于“凡人机器学习”公众号,细致问题参见公众号。一、特征的重要性特征工程有多重要,“数据和特征决定了模型的上限,算法只是帮忙逼近这个上限”。特征是数据对于结果的一种描述,特征工程就是要找到对结果影响最大的特征。特征分为以下几种:1、线性特征:可以理解为用户直接可以拿到的数据字段;2、半隐性特征:用户数据在通过GBDT等算法的计算过程中产出的一些特征;3、隐性特征:深度原创 2018-02-06 10:19:10 · 441 阅读 · 0 评论 -
Tensorflow简单神经网络实现
import tensorflow as tffrom numpy.random import RandomState#定义测试集大小batch_size = 8w1 = tf.Variable(tf.random_normal([2,3],stddev=1,seed=1))w2 = tf.Variable(tf.random_normal([3,1],stddev=1,seed=1))原创 2018-01-30 15:02:36 · 426 阅读 · 0 评论 -
机器学习python-Kmeans
K-均值聚类算法首先,随机确定k个初始点作为质心,然后将数据集中的每个点分配到一个簇中,即为每个点找距其最近的质心,并将其分配给该质心对应的簇,然后每个簇的质心更新为该簇所有点的平均值。算法流程如下:创建K个点作为起始质心(一般随机选择)任意一个点所属簇的结果发生改变时 对数据集中每个点 对每个质心 计算数据与质心间的距离原创 2018-02-07 14:33:07 · 247 阅读 · 0 评论 -
机器学习web安全-K近邻算法
使用K近邻算法检测异常操作1、数据清洗依次读取文件中每行操作命令,每100个命令组成一个操作序列,并且做了标记,统计最频繁使用的前50个命令和最不频繁使用的前50个命令: with open(filename) as f: i=0 x=[] for line in f: line=line.strip('\n') ...原创 2018-02-08 12:03:35 · 577 阅读 · 1 评论 -
求解惩戒线性回归-LARS算法源码
import urllibimport numpy as npfrom sklearn import datasets, linear_modelfrom math import sqrtimport matplotlib.pyplot as plot#read data into iterabletarget_url = "http://archive.ics.uci.edu/ml...原创 2018-03-09 22:28:33 · 670 阅读 · 0 评论 -
python文本分类(朴素贝叶斯)
from numpy import *import mathdef loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 's原创 2018-02-02 14:26:48 · 1026 阅读 · 0 评论 -
机器学习python数据预处理
from pandas import read_csvfrom sklearn.preprocessing import StandardScalerfrom numpy import set_printoptionsfrom sklearn.preprocessing import MinMaxScalerfrom sklearn.preprocessing import Normali原创 2018-01-18 14:37:29 · 471 阅读 · 0 评论 -
机器学习python评估算法
from pandas import read_csvfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import KFoldfrom sklearn.model_selec原创 2018-01-21 10:52:23 · 1209 阅读 · 0 评论 -
机器学习python算法评估矩阵
#分类算法矩阵!!from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LogisticRegressionimport pandas as原创 2018-01-21 17:25:11 · 482 阅读 · 0 评论 -
机器学习python评估矩阵2
#用于回归算法from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LinearRegressionfilename = 'housing.原创 2018-01-21 19:18:03 · 426 阅读 · 0 评论 -
机器学习python分类算法
from pandas import read_csvfrom sklearn.linear_model import LinearRegressionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import KFoldfrom sklearn.model_selection原创 2018-01-21 20:04:30 · 1917 阅读 · 0 评论 -
机器学习python自动流程
from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.pipeline import FeatureUnionfrom sklearn.pipeline import Pipelin原创 2018-01-22 20:58:33 · 290 阅读 · 0 评论 -
机器学习python集成算法
from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.ensemble import BaggingClassifierfrom sklearn.tree import Decisi原创 2018-01-22 21:47:08 · 931 阅读 · 0 评论 -
机器学习python算法调参
from pandas import read_csvfrom sklearn.linear_model import Ridgefrom sklearn.model_selection import GridSearchCVfrom scipy.stats import uniformfrom sklearn.model_selection import RandomizedSearc原创 2018-01-22 22:17:25 · 2750 阅读 · 0 评论 -
机器学习python持久化加载模型
from pandas import read_csvfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom pickle import dumpfrom pickle import load#通过pickle序列化和反序列机器原创 2018-01-22 22:37:45 · 2197 阅读 · 0 评论 -
机器学习python回归项目实例
import numpy as npfrom numpy import arangefrom matplotlib import pyplotfrom pandas import read_csvfrom pandas import set_optionfrom pandas.plotting import scatter_matrixfrom sklearn.preprocessin原创 2018-01-23 12:05:23 · 1883 阅读 · 0 评论 -
Tensorflow自定义损失函数
import tensorflow as tffrom numpy.random import RandomStatebatch_size = 8#两个输入结点x = tf.placeholder(tf.float32,shape=(None,2),name='x-input')y_ = tf.placeholder(tf.float32,shape=(None,1),name='y-i原创 2018-01-30 19:42:54 · 1211 阅读 · 0 评论 -
机器学习python kNN算法
from numpy import *import operatordef createDataset(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group,labelsdef classify0(inX,dataSet,labels原创 2018-01-31 15:07:33 · 204 阅读 · 0 评论 -
机器学习python决策树源码
from math import logimport operatordef createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'n原创 2018-01-31 20:11:47 · 413 阅读 · 0 评论 -
matplotlib绘制树形图
import matplotlib.pyplot as pltdecisionNode = dict(boxstyle="sawtooth", fc="0.8")leafNode = dict(boxstyle="round4", fc="0.8")arrow_args = dict(arrowstyle="<-")def retrieveTree(i): listOfTrees原创 2018-01-31 22:23:47 · 3819 阅读 · 0 评论 -
机器学习——文本分类(TF-IDF)
首先,文本数据属于非结构化数据,一般要转换成结构化的数据,一般是将文本转换成“文档-词频矩阵”,矩阵中的元素使用词频或者TF-IDF。TF-IDF的主要思想是:如果某一个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或短语具有很好的类别区分能力,适合用于分类。TF-IDF=TF*IDFIDF主要思想:如果包含词条t的文档越少,也就是n越小,IDF越到,则说明词条t具原创 2018-01-25 13:07:15 · 20388 阅读 · 4 评论 -
机器学习——python数据导入、数据理解
这里导入的数据格是CSV格式导入方法一:采用python类库导入数据from csv import readerimport numpy as npfilename = 'pima_data.csv'#with语句简化了异常的处理,不需要自己再来对文件句柄操作with open(filename , 'rt') as raw_data: readers = reader(raw_d原创 2018-01-17 22:33:27 · 1678 阅读 · 0 评论 -
机器学习——监督学习几种经典模型特点
监督学习分为分类学习和回归学习,分类即从分类别中选择一个作为结果,其结果是离散的,回归待预测的结果是连续的,回归于分类的模型大同小异,这里只介绍分类学习分类学习:1、线性分类器受限于数据特征与分类目标之间的线性假设。LogisticRegression采用精确解析的方法,计算时间长、模型性能高,SGDClassifier采用随机梯度上升的方法,时间短、模型性能略低。如果数据规模在10W原创 2018-01-25 19:10:17 · 7028 阅读 · 0 评论 -
机器学习python Kmeans聚类
import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.cluster import KMeansfrom sklearn import metricsfrom sklearn.metrics import silhouette_scoreimport matplotlib.pyp原创 2018-01-25 22:29:33 · 515 阅读 · 0 评论 -
MXNet实现Alexnet深度学习框架
Alexnet特点总结:Alexnet会将输入的图像缩放到256*256,再从中随机截取出224*224的区域作为输入。输入图像3*224*224 经过5次卷积和2次最大池化变为256*12*12。Alexnet中的非线性激活都采用relu Alexnet中的最大池化均为大小3,步长2 Alexnet卷积中使用了外衬再经过1次最大池化,变成256*5*5,摊平后变成6400,经过...原创 2019-04-15 18:21:10 · 665 阅读 · 0 评论