2018年12月_houjibofa2050

原创 matplot 绘图

matplot 绘图#!/usr/bin/python# -*- coding:utf-8 -*-from matplotlib import pyplot as pltimport matplotlibimport randomdef mymatplotlib(): x=range(2,26,2) print(list(x)) y=[15,13,14....

2018-12-31 21:19:12 288

原创特征抽取---countVectorizer

特征抽取---countVectorizer#!/usr/bin/python# -*- coding:utf-8 -*-from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizerfrom sklearn.feature_extraction import DictVectorizerdef...

2018-12-30 17:37:48 697

原创逻辑斯特回归---良性/恶性肿瘤的分类

逻辑斯特回归---良性/恶性肿瘤的分类#!/usr/bin/python# -*- coding:utf-8 -*-import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardSca...

2018-12-30 17:28:10 351

原创决策树---预测泰坦尼克号的生存

决策树---预测泰坦尼克号的生存#!/usr/bin/python# -*- coding:utf-8 -*-import pandas as pdfrom sklearn.model_selection import train_test_splitfrom sklearn.feature_extraction import DictVectorizerfrom sklearn...

2018-12-30 17:24:19 370

原创随机森林---预测泰坦尼克号的生存

随机森林---预测泰坦尼克号的生存准确率： 0.8237082066869301#!/usr/bin/python# -*- coding:utf-8 -*-import pandas as pdfrom sklearn.model_selection import train_test_split,GridSearchCVfrom sklearn.feature_extract...

2018-12-30 17:22:55 577

原创逻辑斯特回归--良性和恶性肿瘤分类

#!/usr/bin/python# -*- coding:utf-8 -*-import pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScalerfrom sklearn.line...

2018-12-30 15:26:27 351

原创朴素贝叶斯---新闻文本分类

朴素贝叶斯---新闻文本分类朴素贝叶斯一般用于自然语言分类#!/usr/bin/python# -*- coding:utf-8 -*-import pandas as pdimport numpy as npfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.model_selection import ...

2018-12-30 15:15:15 803

原创 fit_transform与transform的区别：

transform 转化数据以前先进行 fit_transform .

2018-12-29 23:55:18 363

原创线性回归波士顿房价预测

线性回归波士顿房价预测#!/usr/bin/python# -*- coding:utf-8 -*-from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.preprocessing import StandardScaler...

2018-12-29 23:44:15 680

原创 volatile与transient关键字的区别：

transient 被transient 修饰的字段不能被序列化volatile 被volatile修饰的变量，被不同的线程可以看到,解决线程可见性问题。

2018-12-29 12:04:36 331

原创 i++ 是否是线程安全的

i++ 是否是线程安全的？不是线程安全的，它不是原子操作。使用同步技术把它变成一个原子操作。解决方法：1.使用synchronized修饰增加的方法。2.使用原子类AtomicInteger...

2018-12-29 11:06:32 489

原创 RNN与LSTM

RNN 循环神经网络 LSTM 神经网络--RNN的升级版

2018-12-29 10:41:44 249

原创斐波那契数列时间复杂度O(logN)

斐波那契数列时间复杂度O(logN)解题思路：把动态规划转化为矩阵的n次乘法，矩阵的n次乘法等价于计算一个数的n次方，把幂次转化为二进制数，转化为累乘，计算结果public static void main(String[] args) { for(int i=2;i<20;i++){ int num = getNum(i); System.out.print(...

2018-12-29 02:50:29 2098

原创计算一个数的幂--时间复杂度O(logN)

计算一个数的幂--时间复杂度O(logN)解题思路：把数字n转化为二进制数，从右向左扫描，如果是1，进行累乘，每次移位num*=num;public static void main(String[] args) { int base=2; int n=10; int bitNum = getBitNum(base, n); System.out.println(bi...

2018-12-29 02:43:09 2149

原创斐波那契数列时间复杂度O(n) 空间复杂度O(1)

斐波那契数列解题思路：定义三个变量a，b,temp 更新变量a,b public static void main(String[] args) { for(int i=2;i<10;i++){ int num = getNum(i); System.out.print(num+" "); }...

2018-12-28 20:15:53 2170

原创数据的归一化和标准化

归一下：对原始数据进行变换，映射到0-1x'=x-min/(max-min)标准化：对原始数据做做变换，映射到均值为0，方差为1.x'=x-mean/std异常点对归一化和标准差的比较：异常点对归一化影响较大，影响最大值或最小值较大。异常点对标准差影响较小，对均值和方差影响较小。 ...

2018-12-28 11:52:16 274

原创模型的选择与调优

1.交叉验证 2.参数搜索交叉验证的目的：为了让模型的评估更加可靠。首先将数据拆分成训练集和测试集，对训练集拆分成5份，循环5次，每次把其中的4份作为训练集，另外1份作为验证集。参数搜索--网格搜索sklearn.model_select.GridSearch...

2018-12-28 10:29:57 208

原创机器学习调优

网格搜索：遍历所有的超参数。

2018-12-28 10:15:18 192

原创二叉树层次遍历的三种打印方式

层次遍历二叉树--分层打印解题思路：实现方式一个队列+两个变量 lastNum 记录上一层还没有打印的节点的个数， nextNum 记录下一层节点的个数，等到分层点，更新lastNum,nextNum.public static void main(String[] args) { TreeNode treeNode1=new TreeNode(1); ...

2018-12-27 23:35:14 1288

原创 session 与cookie的区别

cookie:是访问某些网站在本地存储的一些访问信息，下次访问，减少一些步骤。是服务端保存在用户浏览器上的小文件session:存在服务端，用来保护用户信息的hashTablecookie与session的区别：1.cookie 在客户端 session在服务端2.cookie在客户端，安全性不高，可以被修改。session在服务端相对较安全。3.cookie存储的数据不能超...

2018-12-27 11:49:09 99

原创 b树与b+树的区别

b树和b+树主要用于数据库索引， b树多用于文件系统，b+树多用于mysql数据库的索引b树与b+树可以认为是m叉多路平衡树。b树主要的特点：1.关键字分布在整颗树2.任何一个关键字出现且只出现在一个结点中3.搜索有可能在非叶子结点结束；4.其搜索性能等价于在关键字全集内做一次二分查找；b+树的特点：1.有n棵子树的非叶子结点不保存数据，只用来索引，所有数据都保存在...

2018-12-26 17:14:33 3717 1

原创正排索引和倒排索引的区别

1.正排索引：由文档指向关键词文档--> 单词1 ,单词2单词1 出现的次数单词出现的位置；单词2 单词2出现的位置 ...2.倒排索引：由关键词指向文档单词1--->文档1,文档2，文档3单词2--->文档1，文档2...

2018-12-26 16:25:46 7743

原创 Spring MVC 执行流程

Spring MVC工作流程图图一图二 Spring工作流程描述 1. 用户向服务器发送请求，请求被Spring 前端控制器 DispatcherServlet捕获； 2. DispatcherServlet对请求URL进行解析，得到请求资源标识符（URI）。然后根据该URI，调用HandlerMapping获得该Handler...

2018-12-26 16:17:38 134

原创 kafka 消息队列

消息队列常见的使用场景：解耦，异步，流量消峰。kafka的优点：高吞吐量，ms延迟，高的可用性和可靠性，分布式。缺点是可能会出现重复消费。kafka 的使用场景是实时计算和日志收集。activi MQ 社区不活跃，几个月更新一次，不建议使用rabbit MQ 社区比较活跃，半个月更新一次。rocket MQ 社区一般，阿里产品。推荐使用rocket MQ和kafka...

2018-12-26 13:49:15 114

原创 java8 新特性

1、lambda 表达式和函数式接口 lambda表达式参数列表->语句块函数式接口：只有一个函数的及接口，被@FunctionalInterface 修饰的函数式函数式接口，可以隐式转换为lambda表达式函数式接口的例子java.lang.Runnable和java.util.concurrent.Callable2.接口的默认方法和静态方法...

2018-12-25 22:48:15 151

原创线性回归和逻辑（logistic）回归

线性回归是解决回归问题。结果是连续型，主要解决房租预测等问题。逻辑回归是分类问题，不是回归问题，结果是离散型，主要解决二分类问题。

2018-12-25 11:25:04 7570

原创 svm 为什么使用核函数

svm 为什么使用核函数解决在低维空间线性不可分的问题，通过核函数把低维映射到高维，实现线性可分。常见核函数有线性核函数，多项式核函数，高斯核函数，sigmoid 核函数...

2018-12-25 11:16:25 2243

原创机器学习 L1范数与L2范数的区别

L1范数是对应向量的绝对值之和，具有稀疏性。可以用于特征选择。L2范数是对应向量的平方项的累加和，可以防止模型的过拟合，提升模型的泛化能力。...

2018-12-24 17:05:49 710

原创机器学习梯度消失和梯度膨胀

梯度消失的解决方法：可以采用relu解决梯度消失。梯度膨胀的解决方法：可以通过sigmoid解决梯度膨胀。

2018-12-24 17:02:25 444

原创机器学习 pca和svd的区别与联系

pca 是对原数据的协方差矩阵进行特征值即对称矩阵的特征分解。svd 是对原数据（原数据不一定是对称矩阵）进行特征值的分解。

2018-12-24 15:03:51 560

原创机器学习 knn和kmean相似点和区别

knn 是分类算法，监督学习（有标签），不需要提前训练。kmean 是聚类算法无监督学习（没有标签），需要提前训练。相似点：都使用了近邻思想，在数据集中寻找最近的点。...

2018-12-24 14:55:49 888 1

原创机器学习如何应对一个数据分布及不平衡的二分类问题正负样本比例100000:1

解决方式两种：1.过采样 over-sampling 2.欠采样过采样：增加样本中少数类样本的数量经典的方法 1. 复制少数样本 2.在少数样本中加入随机噪声，干扰数据通过一定的规则生成一定的样本。（smote算法）下采样：减少多数样本的数量方法：随机的去掉多数类样本，直到多数样本和少数样本相同 ...

2018-12-24 14:50:36 6101

原创 leetcode Reverse String

leetcode Reverse String解题思路：两个指针，一个从前到后，一个从后到前，两边找到元音字母交换。package com.algorithm.leetcode.twomonth;public class test55 { public static void main(String[] args) { String str="hello";...

2018-12-23 22:30:44 165

原创 leetcode Add Digits

leetcode Add Digits解题思路：枚举20个元素，观察规律。num%9==0 返回9 否则返回余数。package com.algorithm.leetcode.twomonth;public class Test54 { public static void main(String[] args) { int num=38; i...

2018-12-23 20:11:25 80

原创 tensorflow 批量读取多个csv文件

tensorflow 批量读取多个csv文件#!/usr/bin/python# -*- coding:utf-8 -*-import tensorflow as tfimport osdef csvfile(fileist): file_queue=tf.train.string_input_producer(filelist) reader=tf.TextLin...

2018-12-23 16:55:07 1655 1

原创 tensorflow 自己手动实现的线性回归

tensorflow 自己手动实现的线性回归#!/usr/bin/python# -*- coding:utf-8 -*-import tensorflow as tfimport os# 第二个参数是默认值tf.app.flags.DEFINE_integer("max_iter", 100, "迭代次数")tf.app.flags.DEFINE_string("model...

2018-12-23 09:55:35 284

原创 tensorflow tensorboard显示问题

1.切到需要展示的目录2.tensorboard --logdir=test

2018-12-23 09:00:53 374

原创卷积神经网络

卷积神经网络主要用于图像处理。卷积神经网络有5层组成，包括：输入层（input）,卷积层（conv）,激励层（relu）,池化层（pool）,全连接层（FC）经过卷积层后的图像的大小计算的：输入图像大小： W1*H1*D1输出图像的大小的计算： W2=(W1-F+2P)/S+1 H2=(H1-F+2P)/S+1 D2=KF:filter的大小...

2018-12-21 11:32:48 155

原创 leetcode Perfect Squares

一个数可以写几个数的平方数，最少的平方的个数解题思路：动态规划 dp[i]=min(dp[i-j*j]+1) j=1,2,..m m=sqrt(i)public static void main(String[] args) { int num=12; int i = numSquares(num); System.out.pri...

2018-12-19 21:56:35 74

原创 K 近邻算法

k 近邻算法是一种分类算法对于未知类别的点： 1.计算已知类别的点到当前点中的距离（计算距离） 2.按照距离以此排序（排序） 3.选取与当前点距离最近的k个点（选K个点） 4.确定前k个点的类别（确定类别） 5.选取出现类别次数最多的点的类别，作为未知点的类别。 k 近邻算法的三个要素： k值的选取，距离度量，分类决...

2018-12-19 13:29:06 221

matlab入门

空空如也