lilu916-CSDN博客

原创《投资买房策略》项目分析报告

项目工作思路整体项目的工作思路包括观察数据、清洗&转换数据、建立模型&预测这三大模块。观察数据、清洗及转换数据是实施项目的大前提，主要包括以下操作：

2017-11-15 17:51:08 948 2

原创机器学习笔记-模型评估与选择， Training set、Validation set 和 Testing set的区别与作用

在自学机器学习的过程中，如果不系统的看一本好的参考书，形成整体的知识框架，很容易在某一个环节停滞不前。例如：Validation set 的作用是什么？它与 Testing set的区别是什么？在不同的参考书、博客里关于这部分阐述的重点不一致，本文就结合各大牛的知识心得，尝试梳理一下这一块的内容。采用机器学习的方法解决一个实际问题的过程应该大致包括以下几个步骤：问题抽象->模型

2017-09-29 06:23:40 6498

原创机器学习笔记-集成学习之Bagging，Boosting，随机森林三者特性对比

集成学习的概念集成学习通过构建并结合多个学习器来完成学习任务。只包含同种类型的个体学习器，这样的集成是“同质”的，例如都是神经网络或者决策树；包含不同类型的个体学习器，这样的集成是“异质”的，例如同时包括神经网络和决策树。集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。根据个体学习器的生成方式，目前的集成学习方法大致可分为两大类：1）个体学习器间存在强大依

2017-09-26 15:57:01 8459

原创机器学习笔记-神经网络中激活函数（activation function）对比--Sigmoid、ReLu，tanh

为什么激活函数是非线性的？如果不用激励函数（相当于激励函数是f(x)=x），在这种情况下，每一层的输出都是上一层的线性函数，无论神经网络有多少层，输出都是输入的线性组合，这与一个隐藏层的效果相当（这种情况就是多层感知机MPL）。但当我们需要进行深度神经网络训练（多个隐藏层）的时候，如果激活函数仍然使用线性的，多层的隐藏函数与一层的隐藏函数作用的相当的，就失去了深度神经网络的意义，所以引入非

2017-09-03 14:53:15 20914

原创机器学习笔记-第四章神经网络

本文为斯坦福大学吴恩达教授的《机器学习》视频课程第四章主要知识点，参考书籍《Python数据分析与挖掘实战》、《机器学习》前面的章节学习了线性回归和逻辑算法，实际上很多复杂的非线性分类器都依赖于神经网络算法。当特征值的个数过多时，多元回归方程的高阶多项式的个数将以几何倍数增加，特征空间将会很大。而对于很多机器学习的例子，特征值的个数是很大的，例如图像识别，一副图片中的像素个数就

2017-09-02 15:49:14 796

原创机器学习笔记：tensorflow实现卷积神经网络经典案例--识别手写数字

从识别手写数字的案例开始认识神经网络，并了解如何在tensorflow中一步步建立卷积神经网络

2017-08-31 09:30:43 1647

原创爬虫：用Python爬取招聘职位信息&职位需求分析

用Python爬取智联招聘网站“数据分析”相关岗位信息# _*_ coding: utf-8 _*_from bs4 import BeautifulSoupimport requestsimport csvimport jsonimport pandas as pdimport numpy as np#定义函数：请求下载页面源代码def download(url): head

2017-07-26 09:25:21 10804 6

原创机器学习笔记-第三章逻辑回归

本文为斯坦福大学吴恩达教授的《机器学习》视频课程第三章主要知识点。分类问题举例邮件：垃圾邮件/非垃圾邮件？在线交易：是否欺诈（是/否）？肿瘤：恶性/良性？以上问题可以称之为二分类问题，可以用如下形式定义：其中0称之为负例，1称之为正例。当y值只有1或0两个值时，如果还使用线性回归，会因为x的样例增加而改变线性回归方程，所以线性回归不适用。

2017-07-09 17:24:19 611

原创机器学习笔记-第二章多变量线性回归

本文为斯坦福大学吴恩达教授的《机器学习》视频课程第二章主要知识点多元线性回归方程：其中，X1到Xn是多个特征向量回归方程用向量可以表示成：其中，假设X0为1，这样方便X与θ的配对计算梯度下降方法：想要使用一个线性方程来拟合数据集，当数据集是N元的时候，则需要选择N个变量来与这些未知数组成线性方程，这N个变量记作theta。在

2017-07-01 21:04:53 751

作为机器学习的新手，斯坦福大学吴恩达教授的《机器学习》视频课程的确很能吸引入门者的兴趣，各个概念讲解的深入浅出。谨以此系列博客记录每一章最核心的知识点。第一章机器学习定义：在计算机上从数据中产生“模型”的算法，有了学习算法，我们把经验数据提供给它，它就能基于这些数据产生模型，在面对新的情况时，模型会给我们提供相应的判断。机器学习主要分为监督学习和非监督学习两大类：吴恩达教授的课程不仅阐述解释算法的定

2017-07-01 21:01:27 560

原创 Python数据挖掘学习笔记-决策树分类

1、决策树算法原理&主要流程框架决策树方法在分类、决策、规则提取等领域有着广泛的应用。决策树是一种树状结构，其中包含三种节点：根节点：没有入边，但有零条或多条出边。内部节点：恰有一条入边和两条或多条出边。叶节点：恰有一条入边，但没有出边。也就是说每一个叶节点对应着一个分类，非叶节点对应着某个属性上的划分。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。常用的决策树算法有ID

2017-06-18 20:32:51 2712

原创机器学习笔记-聚类分析之K-means算法案例及其Python实现

引言：数据挖掘的本质是“计算机根据已有的数据做出决策”，其对社会的价值不必多言，相关的应用已经有很多，包括垃圾邮件拦截、客户价值分析等。尽管数据挖掘实现过程的细节千差万别，但是从思路来说，主要包括两个方面：1、创建数据集；2、建模调整算法。算法是数据挖掘最核心的部分，作为一名学习新人，在参考《数据挖掘导论》、《Python数据分析与挖掘实战》、《Python数据挖掘入门与实战

2017-06-10 17:46:30 73072 116

原创 Python编程中“if _name_=='_main_'："语句的作用和原理

大多数编排的较好的脚本或程序里面都会有 "if _name_=='_main_':"这段，它的作用是什么呢？首先，我们来看_name_是什么。在python中，每个模块都有一个叫_name_的内置变量，这个变量的值会根据该模块被使用的方式而变化：1、假设模块 A.py 在另一个模块 B.py 中，被作为模块导入，则_name_的值为模块 A.py 的名称2、假设模块 A.py被直接执行

2017-04-11 11:08:52 3984

原创朴素贝叶斯分类

朴素贝叶斯是应用较广的分类方法，比如病人分类、邮件分类等。一、下面举例说明：某医院诊断了6位病人，这时候又来了一位打喷嚏的建筑工人，请问他感冒的概率多大？根据贝叶斯公式可知： P(A|B) = P(B|A) P(A) / P(B)即： P(感冒|打喷嚏&建筑工人) =P(打喷嚏&建筑工人|感冒)*P(感冒) / P(打喷嚏&建筑工人)假定

2017-03-26 22:43:29 648

原创使用python处理csv文件

本文相当于自己的学习笔记，望各位大神不吝批评指正。用python处理csv文件的时候，会遇到很多细节问题，不注意的话很容易报错。下面将分模块进行讨论：1、导入csv文件# -*-coding:utf-8-*-#这是为了在能够识别IDE中输入的中文import pandas as pddf=pd.read_csv('D://DataAnalyst.csv',encoding='gbk')#读取文件

2017-03-26 18:30:41 1124

lilu916的博客