- 博客(73)
- 收藏
- 关注
原创 JavaWeb实验项目——购物车
IDE:IDEA环境:mysql+tomcat实现一个小的购物车项目,这里需要自己创建创建一个数据库,并且建表,结构如下:这里给出代码地址:购物车项目
2019-12-12 09:50:26 2829
原创 Hbase Javaapi Filter和scan相关问题
摸索了几天Hbase关于利用Filter去做scan,也是很有体会。先简单介绍一下我的表结构,然后描述我的需求,最后给出利用Filter去查询的方案。rowkey:Filename+index1+index2 例子:xxx_4_9 (其中xxx为filename,4为index1,9为index2),列簇设计为:Info和Data两组,其中Info就包含一些常规信息,Data中的列是按照...
2019-12-05 10:36:18 566
原创 Hbase相关问题
1、Hbase启动需要先启动zookeeper,进入bin路径,./zkServer.sh start然后启动hdfs和yarn,用start-all.sh最后启动hbase,start-hbase.sh,在哪台服务器上启动,哪台就是HMaster,可登陆该台主机的16010端口查看Hbase服务2、Hbase启动好之后,用jps查看,如果只有HMaster启动起来了,slave节...
2019-12-04 19:03:33 407
原创 MXNet实现Alexnet深度学习框架
Alexnet特点总结:Alexnet会将输入的图像缩放到256*256,再从中随机截取出224*224的区域作为输入。输入图像3*224*224 经过5次卷积和2次最大池化变为256*12*12。Alexnet中的非线性激活都采用relu Alexnet中的最大池化均为大小3,步长2 Alexnet卷积中使用了外衬再经过1次最大池化,变成256*5*5,摊平后变成6400,经过...
2019-04-15 18:21:10 679
原创 numpy的广播规则
首先说一下numpy的广播规则:1、如果两个数的维度数不同,那么小维度数组的形状将会在最左边补1。2、如果两个数组的形状在任何一个维度都不匹配,那么数组的形状会沿着维度为1的维度扩展以匹配另外一个数组的形状。3、如果两个数组的形状在任何一个维度上都不匹配并且没有任何一个维度等于1,那么会引发异常。import numpy as npa = np.ones((2,3))b = ...
2019-04-12 21:41:16 1122 1
原创 Keras中fit()和fit_generator()区别以及其参数的坑
fit和fit_generator的区别首先Keras中的fit()函数传入的x_train和y_train是被完整的加载进内存的,当然用起来很方便,但是如果我们数据量很大,那么是不可能将所有数据载入内存的,必将导致内存泄漏,这时候我们可以用fit_generator函数来进行训练。下面是fit传参的例子:history = model.fit(x_train, y_train, ep...
2019-04-11 13:06:01 26544 11
原创 求解惩戒线性回归-LARS算法源码
import urllibimport numpy as npfrom sklearn import datasets, linear_modelfrom math import sqrtimport matplotlib.pyplot as plot#read data into iterabletarget_url = "http://archive.ics.uci.edu/ml...
2018-03-09 22:28:33 688
原创 支持向量机区分僵尸网络DGA
僵尸网络一般为了躲避域名黑名单,会使用DGA动态生成域名,通过DGA不同的特征,可以识别不同的特征。DGA文件格式如下:首先从DGA文件中提取域名数据def load_alexa(filename): domain_list = [] csv_reader = csv.reader(open(filename)) for row in csv_reader: ...
2018-02-10 21:45:49 1564
原创 anaconda 安装第三方包
这里以安装hmmlearn库为例首先,在http://www.lfd.uci.edu/~gohlke/pythonlibs/下载你需要安装的库,比如python多少位要与anaconda一致然后,在菜单栏里打开Anaconda Prompt输入 pip install whl文件的完整路径\whl文件名可以用pip list检查是否安装成功。对于绝大多少的...
2018-02-10 19:10:59 44791 5
原创 使用支持向量机识别XSS
基于web日志特征,这里选取了四个特征,分别是:url长度、url中包含的第三方域名的个数、敏感字符的个数、敏感关键字的个数def get_len(url): return len(url)def get_url_count(url): if re.search('(https://)|(https://)',url,re.IGNORECASE): return ...
2018-02-10 17:08:06 867 1
原创 使用K近邻算法检测Rootkit、WebShell
使用K近邻算法检测Rootkit基于telnet连接的rootkit检测流程:KDD 99 数据(41维特征)->筛选与rootkit相关特征->基于tcp内容的特征->向量化->与rootkit相关的特征向量->KNN算法+10折交叉验证->评估效果1、数据搜集和清洗这里用的是KDD 99数据集,筛选标记为rootkit和normal且是telnet协议的数据...
2018-02-08 19:53:17 1186 2
原创 机器学习web安全-K近邻算法
使用K近邻算法检测异常操作1、数据清洗依次读取文件中每行操作命令,每100个命令组成一个操作序列,并且做了标记,统计最频繁使用的前50个命令和最不频繁使用的前50个命令: with open(filename) as f: i=0 x=[] for line in f: line=line.strip('\n') ...
2018-02-08 12:03:35 592 1
原创 TypeError: 'dict_keys' object is not subscriptable
使用FreqDist时,出现了如下报错:TypeError: 'dict_keys' object is not subscriptable我一开始使用的方法是: fdist = FreqDist(dist).keys() dist_max=set(fdist[0:50])只需要在第一行加上list就解决了,代码如下: fdist = list(FreqDist(dist).k...
2018-02-08 10:52:46 34110 3
原创 机器学习python-Kmeans
K-均值聚类算法首先,随机确定k个初始点作为质心,然后将数据集中的每个点分配到一个簇中,即为每个点找距其最近的质心,并将其分配给该质心对应的簇,然后每个簇的质心更新为该簇所有点的平均值。算法流程如下:创建K个点作为起始质心(一般随机选择)任意一个点所属簇的结果发生改变时 对数据集中每个点 对每个质心 计算数据与质心间的距离
2018-02-07 14:33:07 263
原创 机器学习特征问题笔记1
本篇笔记学习于“凡人机器学习”公众号,细致问题参见公众号。一、特征的重要性特征工程有多重要,“数据和特征决定了模型的上限,算法只是帮忙逼近这个上限”。特征是数据对于结果的一种描述,特征工程就是要找到对结果影响最大的特征。特征分为以下几种:1、线性特征:可以理解为用户直接可以拿到的数据字段;2、半隐性特征:用户数据在通过GBDT等算法的计算过程中产出的一些特征;3、隐性特征:深度
2018-02-06 10:19:10 465
原创 机器学习python缩减系数
如果特征比样本点多,那么对于用矩阵求解的方式就不可行,因为矩阵不可逆,这时候可以通过岭回归的方法,在矩阵XTX上加一个λr,使得矩阵可逆,那么回归系数w= (xTx+λI)-1xTy,I是单位矩阵,lam是自己定义的一个系数,同时岭回归还可以用在估计中加入偏差,从而限制w的和,通过加入这个参数,可以减少不重要的参数。这是不同的几个回归系数,横坐标是ln(lam)的值,纵坐标是回归系
2018-02-05 15:34:13 653
原创 机器学习python局部加权线性回归
局部加权线性回归可以解决欠拟合问题,给待测点附近的每个点赋予一定的权重通过矩阵运算的方法解出回归系数w = (XTWX)-1xTWy,通过使用“核”来对附近的点赋予权重,最常用的高斯核权重如下:w(i,i)= exp(|x(i) - x| / -2k2),对K值取不同的结果,得到的模型也不用,K越小,可能会出现过拟合,K越大,可能会出现欠拟合,这里将给出不同的K值的函数图像,这种方法加重了
2018-02-05 11:20:55 2113 2
原创 机器学习python线性回归(矩阵法求参)
from numpy import *def loadDataSet(filename): numFeat = len(open(filename).readline().split('\t')) - 1 dataMat = [] labelMat = [] fr = open(filename) for line in fr.readlines():
2018-02-04 22:12:00 1328
原创 机器学习python-Adaboost
from numpy import *def loadSimpData(): datMat = matrix([[ 1. , 2.1], [ 2. , 1.1], [ 1.3, 1. ], [ 1. , 1. ], [ 2. , 1. ]]) classLabels = [1.0, 1.0, -1.0,
2018-02-04 11:42:09 250
原创 机器学习python-Logistic回归
from numpy import *import matplotlib.pyplot as pltdef loadDataSet(): dataMat = [] labelMat = [] fr = open('testSet.txt') for lines in fr.readlines(): lineArr = lines.strip()
2018-02-02 21:55:58 299
原创 python文本分类(朴素贝叶斯)
from numpy import *import mathdef loadDataSet(): postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 's
2018-02-02 14:26:48 1033
原创 matplotlib绘制树形图
import matplotlib.pyplot as pltdecisionNode = dict(boxstyle="sawtooth", fc="0.8")leafNode = dict(boxstyle="round4", fc="0.8")arrow_args = dict(arrowstyle="<-")def retrieveTree(i): listOfTrees
2018-01-31 22:23:47 3832
原创 机器学习python决策树源码
from math import logimport operatordef createDataSet(): dataSet = [[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'n
2018-01-31 20:11:47 421
原创 机器学习python kNN算法
from numpy import *import operatordef createDataset(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group,labelsdef classify0(inX,dataSet,labels
2018-01-31 15:07:33 212
原创 Tensorflow自定义损失函数
import tensorflow as tffrom numpy.random import RandomStatebatch_size = 8#两个输入结点x = tf.placeholder(tf.float32,shape=(None,2),name='x-input')y_ = tf.placeholder(tf.float32,shape=(None,1),name='y-i
2018-01-30 19:42:54 1222
原创 Tensorflow简单神经网络实现
import tensorflow as tffrom numpy.random import RandomState#定义测试集大小batch_size = 8w1 = tf.Variable(tf.random_normal([2,3],stddev=1,seed=1))w2 = tf.Variable(tf.random_normal([3,1],stddev=1,seed=1))
2018-01-30 15:02:36 433
原创 Tensorflow线性回归模型搭建
# import tensorflow as tf# import numpy as np# greeting = tf.constant('Hello Google Tensorflow!')# #启动一个会话# sess = tf.Session()# #使用会话执行greeting计算模块# result = sess.run(greeting)# print(result)
2018-01-27 13:57:52 306
原创 机器学习python模型正则化
这里主要是用多项式线性拟合,然后通过两种方法来优化过拟合和欠拟合from sklearn.linear_model import LinearRegressionfrom sklearn.preprocessing import PolynomialFeaturesimport numpy as npimport matplotlib.pyplot as pltX_train = [[
2018-01-26 18:35:07 1585 1
原创 机器学习python特征筛选
import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction import DictVectorizerfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_select
2018-01-26 16:07:15 1781
原创 机器学习python Kmeans聚类
import numpy as npimport matplotlib.pyplot as pltimport pandas as pdfrom sklearn.cluster import KMeansfrom sklearn import metricsfrom sklearn.metrics import silhouette_scoreimport matplotlib.pyp
2018-01-25 22:29:33 524
原创 机器学习——监督学习几种经典模型特点
监督学习分为分类学习和回归学习,分类即从分类别中选择一个作为结果,其结果是离散的,回归待预测的结果是连续的,回归于分类的模型大同小异,这里只介绍分类学习分类学习:1、线性分类器受限于数据特征与分类目标之间的线性假设。LogisticRegression采用精确解析的方法,计算时间长、模型性能高,SGDClassifier采用随机梯度上升的方法,时间短、模型性能略低。如果数据规模在10W
2018-01-25 19:10:17 7262
原创 机器学习——文本分类(TF-IDF)
首先,文本数据属于非结构化数据,一般要转换成结构化的数据,一般是将文本转换成“文档-词频矩阵”,矩阵中的元素使用词频或者TF-IDF。TF-IDF的主要思想是:如果某一个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或短语具有很好的类别区分能力,适合用于分类。TF-IDF=TF*IDFIDF主要思想:如果包含词条t的文档越少,也就是n越小,IDF越到,则说明词条t具
2018-01-25 13:07:15 20440 4
原创 机器学习python回归项目实例
import numpy as npfrom numpy import arangefrom matplotlib import pyplotfrom pandas import read_csvfrom pandas import set_optionfrom pandas.plotting import scatter_matrixfrom sklearn.preprocessin
2018-01-23 12:05:23 1894
原创 机器学习python持久化加载模型
from pandas import read_csvfrom sklearn.model_selection import train_test_splitfrom sklearn.linear_model import LogisticRegressionfrom pickle import dumpfrom pickle import load#通过pickle序列化和反序列机器
2018-01-22 22:37:45 2206
原创 机器学习python算法调参
from pandas import read_csvfrom sklearn.linear_model import Ridgefrom sklearn.model_selection import GridSearchCVfrom scipy.stats import uniformfrom sklearn.model_selection import RandomizedSearc
2018-01-22 22:17:25 2761
原创 机器学习python集成算法
from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.ensemble import BaggingClassifierfrom sklearn.tree import Decisi
2018-01-22 21:47:08 943
原创 机器学习python自动流程
from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.pipeline import FeatureUnionfrom sklearn.pipeline import Pipelin
2018-01-22 20:58:33 304
原创 机器学习python分类算法
from pandas import read_csvfrom sklearn.linear_model import LinearRegressionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.model_selection import KFoldfrom sklearn.model_selection
2018-01-21 20:04:30 1928
原创 机器学习python评估矩阵2
#用于回归算法from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LinearRegressionfilename = 'housing.
2018-01-21 19:18:03 436
原创 机器学习python算法评估矩阵
#分类算法矩阵!!from pandas import read_csvfrom sklearn.model_selection import KFoldfrom sklearn.model_selection import cross_val_scorefrom sklearn.linear_model import LogisticRegressionimport pandas as
2018-01-21 17:25:11 492
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人