2019年06月_宫城诗

原创 20190628——决策树

决策树：如何高效的进行决策。特征的先后顺序决策树分类原理详解已知四个特征，是否贷款给某个人？先看房子，在工作 -》是否贷款能够找到一种高效的方法，自动找到先要去哪个进行查询需用引入信息论的意思信息论香农定义：消除随机不定性的东西信息的衡量-信息量-信息熵一般对信息熵进行计算，以2为底相当于我们正在做消除给某人贷款的不确定性信息增益：信息增益就是我们再知道了一个信...

2019-06-28 16:41:52 71

原创 20190628——朴素贝叶斯算法原理

概率基础概率就是定义一件事情发生的可能性。所谓的朴素，就是加了一个假设：特征与特征之间是相互独立的。朴素贝叶斯：朴素+贝叶斯朴素：特征与特征之间是相互独立的贝叶斯：就是贝叶斯算法应用场景：文本分类单词作为特征20类新闻分类1）获取数据2）划分数据集3）特征工程文本特征抽取4）朴素贝叶斯预估器流程5）模型评估朴素贝叶斯算法总结优点：朴素贝叶斯模型...

2019-06-28 14:26:33 250

原创 20190628——axios深入阅读

Axios 是一个基于 promise 的 HTTP 库，可以用在浏览器和 node.js 中。Axios的特点从浏览器中创建 XMLHttpRequests从 node.js 创建 http 请求支持 Promise API拦截请求和响应转换请求数据和响应数据取消请求自动转换 JSON 数据客户端支持防御 XSRF安装 npm install axios调用案例get...

2019-06-28 12:09:13 115

原创 2010627——python简介

解释器python是由C语言实现的，并能够调用C语言的库文件计算机不能理解任何除机器语言以外的文件，所以必须要把程序员所写的程序语言翻译成机器语言，计算机才能执行，将其他语言翻译成机器语言的工具，被称为解释器。...

2019-06-27 13:25:06 73

原创 20190626——Facebook案列流程分析

流程分析：第一步获取数据第二步数据处理特征值目标值a.缩小数据范围。取 2 < x <2.5 1.0 < y < 1.5b.想要time变成年月日时分秒c.过滤签到次数少的地点。第三步特征工程标准化第四步 KNN算法预估流程第五步模型选择与调优第六步模型评估数据缩小了...

2019-06-26 19:10:22 151 1

原创 20190626——模型选择与调优

模型选择调优，可以解决K值的问题交叉验证：将拿到的训练数据，分为训练集和验证集。以下图为例，将数据分成4份，其中一份做成验证集，然后经过4次测试，每次都更换不同的验证集，即得到4组模型结果，取平均值作为最终结果，又称4折交叉验证交叉验证之后，被评估的模型更加准确。超参数搜索——网格搜索选择k的取值通常情况下，有很多参数是需要手动指定的，（knn算法中的k），这叫做超参数，但是手动过...

2019-06-26 17:32:58 583

原创 2090626——K—近邻算法

K近邻又称KNN算法那什么是KNN算法假如我现在在北京，可我不知道我在哪个区。但是我知道我离其他区是什么距离。核心算法：根据我的邻居判断我在什么位置K——近邻算法（KNN）原理K Nearest Neighbor 算法又叫KNN算法，这个算法是机器学习里面一个比较经典的算法，总体来说KNN算法是相对比较容易理解的算法那定义：如果一个样本在特征空间中的K个最相似（即特征空间中最邻近）...

2019-06-26 15:53:47 114

原创 20190626——sklearn转换器和估计器

目标值：分类分类算法sklearn转换器和预估器在我们调用的fit-transform（）其实相当于调用了两个函数一个叫fit 一个叫transformfit再做计算每一列的平均值和标准差transform 进行最终的转换转换器其实相当于特征工程所用的父类transfer转换器类都是继承估计器sklearn机器学习算法的实现估计器（emstimator）第一步需要实...

2019-06-26 13:49:02 484

原创 20190625——特征抽取主成分分析

主成分分析定义：高维数据转化为低维数据的过程，在此过程中可能会舍弃原有数据、创造新的变量作用：是数据维数压缩，尽可能降低原数据的维数（复杂度），损失少量信息。...

2019-06-25 17:06:25 230

原创 20190625——特征降维特征选择

降维 ——降低维度ndarray 多维数组降维降的不是嵌套的层数，降维的对象是二维数组降低列数，降低特征的个数降维是指在某些特定的条件下，降低随机变量（特征）个数，得到一组“不相关”主变量的过程。降低随机变量的个数。正是因为在进行训练的时候，我们都是使用特征进行学习。如果特征本身存在问题或者特征之间相关性较强，对于算法学习预测会影响较大。效果：要求特征与特征之间不相关。降维的...

2019-06-25 15:58:19 815 1

原创 20190624——数据预处理

特征预处理通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。数值型数据的无量纲化归一化标准化特征预处理使用的APIsklearn.preprocessing为什么我们要进行归一化/标准化特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其他的特征如果我们不做归一化标准化，会导致这个里程数可...

2019-06-24 19:55:59 200

原创 20190624——文本特征抽取TfidVertorizer

在某一个类别的文章中，出现的次数很多，但是在其他类别的文章中出现很少这样的词就是关键词文本抽取第二种方法TfidVertorizer这样方法可以自动地找出关键词，根据在文章中出现的词，我们可以大概得出来这个文章在讲一些什么内容Tf-idf的文本特征提取。tf-idf的主要思想是：如果某个词或者短语在一篇文章出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能...

2019-06-24 18:42:02 589

原创 20190624——字典特征提取文本特征提取中文文本特征抽取

什么是特征工程比赛会有成绩的提交，跟算法与数据清洗都有关系，也就是特征工程数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已特征工程是使用专业背景知识技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。意义：会影响机器学习的效果pandas用来作数据清洗数据缺失值处理sklearn 特征工程特征提取/抽取比如上面这个文章，我想通过这个文章作为训练集，...

2019-06-24 18:11:12 1506

原创 20190624——实战一下 sklearn数据集的使用

使用这个函数，我们就可以返回一个数据集，获取小的用load_*大的就用fetch_*train test allfrom sklearn.datasets import load_irisdef datasets_demo(): #sklearn数据集使用 #获取数据集 iris = load_iris() print("鸢尾花数据集：\n",ir...

2019-06-24 14:56:00 894

原创 2190624——关于python的包 Anaconda

Python的常用包有哪些，分别有什么作用？来自Datawhale优秀回答者：追风者Python常用包1、Numpy（数值运算库）2、Scipy（科学计算库）3、Matplotlib（基础可视化库）4、Pandas（数据处理库）5、Seaborn（高级可视化库）6、Scikit-learn（流行的机器学习库）各自作用1、Numpy是最为流行的机器学习和数据科学包，Numpy包支...

2019-06-24 14:01:14 220

原创 20190623——可用数据集

公司内部就有数据集百度，数据接口数据集学习阶段可用的数据集sklearnkaggle大数据竞赛平台UCIsklearnpip是一个以Python计算机程序语言写成的软件包管理系统，他可以安装和管理软件包，另外不少的软件包也可以在“Python软件包索引”（英语：Python Package Index，简称PyPI）中找到。pip3就是Python3的pip。先安...

2019-06-23 20:25:21 400

原创 20190623——机器学习开发流程学习框架和资料

获取数据数据处理特征工程，处理成为算法使用的数据。机器学习算法进行训练——模型模型评估应用算法是核心，数据和计算是基础找准定位机器学习库与框架实战类数据机器学习周志华统计学习方法李航深度学习花书...

2019-06-23 19:35:39 191

原创 20190623——什么是机器学习

机器学习是从数据中自动分析获得模型，并利用模型对未知数据进行预测。我们人从大量的日常经验中归纳经验，当面临新的问题的时候，就可以利用以往总结的规律去分析现实状况，采取最佳策略从数据中分析猫和狗的照片。来让机器具有判别猫与狗的能力房屋价格，自动分析建立模型，从而使机器具有预测房屋价格的能力。数据集特征值与目标值监督与无监督类别，比如猫狗，就是分类问题回归问题，连续的值，去预测未来的值...

2019-06-23 19:19:37 141

原创 20190623——人工智能概述

逻辑主义与符号主义逻辑是模仿人类思考的过程，符号是模拟人的推理过程1956年，人工智能元年用统计的方法实现机器学习人工神经网络在图像识别得到了良好的结果，所以备受人们的关注。机器学习到底能做些什么呢？机器学习领域：自然语言处理，图像识别，传统预测自然语言处理包括，文本分类，情感分析，自动聊天。...

2019-06-23 18:49:14 270

蛮力算法蛮力法（brute force method，也称为穷举法或枚举法）是一种简单直接地解决问题的方法，常常直接基于问题的描述，所以，蛮力法也是最容易应用的方法。但是，用蛮力法设计的算法时间特性往往也是最低的，典型的指数时间算法一般都是通过蛮力搜索而得到的mp 匹配追踪算法现在我们需要知道的是向后滑动几个字符。我们怎么判断向后滑动的字符数呢？当然是滑动到其当前后缀与前缀相同的最大位置，例...

2019-06-19 16:21:53 158

原创 20190618——网络程序设计多线程

多线程多线程（英语：multithreading），是指从软件或者硬件上实现多个线程并发执行的技术。具有多线程能力的计算机因有硬件支持而能够在同一时间执行多于一个线程，进而提升整体处理性能。具有这种能力的系统包括对称多处理机、多核心处理器以及芯片级多处理（Chip-level multithreading）或同时多线程（Simultaneous multithreading）处理器。在一个程序中...

2019-06-18 16:15:30 185

原创 2010618——网络程序设计 Dpi

DPI（Deep Packet Inspection）是一种基于数据包的深度检测技术，针对不同的网络应用层载荷（例如HTTP、DNS等）进行深度检测，通过对报文的有效载荷检测决定其合法性异常检测异常检测统计机器学习方法：神经网络、数据挖掘也称为基于行为的检测首先建立起用户的正常使用模式，即知识库标识出不符合正常模式的行为活动重组IP包在传输过程中可能被分片，并可能以乱序方式到...

2019-06-18 16:11:37 177

原创 20190618——网络程序设计 rpc

RPC 的全称是 Remote Procedure Call 是一种进程间通信方式。它允许程序调用另一个地址空间（通常是共享网络的另一台机器上）的过程或函数，而不用程序员显式编码这个远程调用的细节。即程序员无论是调用本地的还是远程的，本质上编写的调用代码基本相同。...

2019-06-18 16:01:45 109

原创 20190618——网络程序设计数据链路层

raw socket中文叫原始套接字，它和其他的套接字的不同之处在于它工作在网络层或数据链路层，而其他类型的套接字工作在传输层，只能进行传输层数据操作。raw socket的工作规则因为工作在网络层上的rawsocket不使用udp和tcp协议，所以系统收到tcp和udp协议的数据包不会发送到工作在网络层上的raw socket。而如果raw socket工作在链路层上，那包系统会将所以收到的...

2019-06-18 15:50:30 129

原创 20190618——网络程序设计 socket

创建Socketint s = socket(domain, type, protocol);s: socket 描述符, 一个整数(打开文件表中的序号)domain: 整数, 通信域e.g., AF_INET (IPv4 协议) – 最常用type: 通信类型SOCK_STREAM: reliable, 2-way, connection-based serviceSOCK_DGR...

2019-06-18 15:21:04 428

原创 20190614——吴恩达机器学习逻辑回归

开始预测的是y是一个离散值利用我们学过的线性回归，这看起来并没有什么不妥，可是当我们在很远的地方又有了一个样本，就不太合适了。线性回归的值会大于1或者小于小于0而我们接下来要学习的这个算法，函数值一直介于0与1之间，是一个分类算法这两个函数名词对应的是同一个函数，g(z)=1/1+e的-z次幂其中z=θ的转置与x的乘积决策边界根据这个函数来比较，当函数值>=0.5...

2019-06-15 13:10:18 162

原创 20190613——吴恩达机器学习 matlab教程

~=在matlab中表示非，而不是平常的编译语言中的！=display(a)你可以在matlab中输出变量分号的作用就是让矩阵换行到下一行1:0.1:2表示的是矩阵从1开始，以0.1的速率增长到2一个元素为一列，所以这个得到的结果是行向量ones(3,4)表示建立了一个3x4的矩阵同理为zeros(a,b)rand(a,b)eye(4)eye表示生成一...

2019-06-13 20:07:15 1601

原创 20190612——吴恩达机器学习多变量线性回归

以前我们学习的都是单变量，假如房屋的面积对应的价格为多对一的变量。接下来我们要学习的是，多变量线性回归，也就是说有多个变量会一起影响这个结果yn代表特征值的数量，m代表样本的数量为了简化这个，令X0的值为1以前我们有n个特征向量，现在有n+1个特征值了。关于多变量的线性回归的推导。多变量的线性回归的问题的代价函数的梯度下降特征缩放会更好的让图像清晰。这样用梯度下降的...

2019-06-12 15:43:26 284

原创 20190611——吴恩达机器学习章节2 单变量线性回归

例题仍然是房价与占地的训练集m代表训练集的数量，x是输入，可能有多个特征值，y是输出，目标值（target）h代表一个假设函数一开始我们学习的这种线性函数是最基础的模型，也许我们会认为二次函数或者更复杂的函数会更好的拟合这个模型，但是我们需要从基础学起。紧扣，主题，线性回归问题。代价函数弄清楚如何把最有可能的直线与我们的数据相拟合。我们称之为模型参数我们要做的事情就是如何...

2019-06-11 16:01:20 163

原创 2190610——吴恩达机器学习章节1

回归问题回归分析是一种数学模型。当因变量和自变量为线性关系时，它是一种特殊的线性模型一般来说，回归分析是通过规定因变量和自变量来确定变量之间的因果关系，建立回归模型，并根据实测数据来求解模型的各个参数，然后评价回归模型是否能够很好的拟合实测数据；如果能够很好的拟合，则可以根据自变量作进一步预测。其实分类和回归的本质是一样的，都是对输入做出预测，其区别在于输出的类型。分类问题：分类问题的输出...

2019-06-10 16:35:31 123

原创 20190603——最优化方法

最优化方法相当于一门学科，大多为求最大值最小值。所谓线性与非线性，如果函数是一元函数，相当于一条直线，那我们说他是线性的，若非，那么就是非线性的。线性规划，目标函数为一次函数，约束条件为一次等式或者不等式所表示的问题称为线性规划问题。线性规划问题的标准表示形式，基解和最优解假定问题，变量个数n比约束条件个数m大Ax=b，这里向量x的n个分量，分成为m和n-m两组，把他们以适当的顺序排...

2019-06-03 17:36:51 1608

原创 20190602——最优化理论基础

所谓最优化方法，就是求一个多元函数在某个给定集合上的极值。min f(x)s.t. x属于KK是某个给定的集合（称为可行集或者是可行域）f(x)是定义在集合K上的实值函数，此外，在模型中，x通常称为决策变量，s.t. 是subject to 的缩写人们按照可行集的性质对最优化问题，进行一个大致的分类线性规划和非线性规划可行集是有限维空间的一个子集组合优化或网络规划可行集中的元素是有...

2019-06-03 14:33:47 766

原创 20190531——travel项目重写

新建分支去写，index-swiper在项目中使用git pull命令git pullgit checkout index-swiper我们想做一个轮播图，第三方插件

2019-06-02 12:35:12 107

寄蜉蝣于天地，渺沧海之一粟。