- 博客(14)
- 资源 (5)
- 收藏
- 关注
原创 线性回归与最小二乘
1.简介回归是指预测的输出值为连续的实值; 线性是说预测函数是属性的线性组合. f(x)=wTx+b(1)f(\boldsymbol x)=\boldsymbol w^T\boldsymbol x+b \tag 1 线性模型(linear model)简单, 易于建模, 但却蕴含着机器学习的重要思想.由于w\mathbf w直观地表达了各属性在预测中的重要性, 所以线性模型有着很好的可解释性(
2017-05-29 15:08:32 786
原创 Jupyter (Lab), 数据科学的块级交互与快速展示工具
交互的 (interactive) 数据科学 与 科学计算 工具, 主打与它是从 IPython 衍生出来的开源项目.
2017-05-23 11:39:30 1574 1
原创 py pandas 库及 excel 文件读写
python 中的数据分析库, 操作对象可直观理解为二维表格, 像 mysql 这种常见的关系数据表一样.官网及教程见参考 [1].
2017-05-23 11:02:54 3254 1
原创 动态规划-LIS 最长上升子序列
题目链接1. 题目题目描述: 某国为了防御敌国的导弹袭击,开发出一种导弹拦截系统。但是这种导弹拦截系统有一个缺陷:虽然它的第一发炮弹能够到达任意的高度,但是以后每一发炮弹都不能高于前一发的高度。某天,雷达捕捉到敌国的导弹来袭,并观测到导弹依次飞来的高度,请计算这套系统最多能拦截多少导弹。拦截来袭导弹时,必须按来袭导弹袭击的时间顺序,不允许先拦截后面的导弹,再拦截前面的导弹。输入: 每组输入有
2017-05-22 09:59:36 965 1
原创 python IDE 之 PyCharm
1. 简介JetBrains出品, 著名的 IntelliJ IDEA 就出自该公司. 很多设置, 以及注册, 与IDEA是共通的, 所以可以先参考 IntelliJ IDEA . PyCharm下载地址. 若是做数据科学的话, Community社区版够用了. Professional 多了web相关的功能.快捷键使用快捷键进行快速跳转, 去查看指定的 class, fil...
2017-05-21 21:11:02 778
原创 py scikit-learn (sklearn) 库
1.简介python的一个机器学习框架. 使用anaconda的话, 自带就有. 官网地址 官网教程-tutorial2.Bunch类scikit-learn的package名字是sklearn, 它自带了一些数据集, 方便入门使用. 数据集通常用bunch这个类表示.from sklearn import datasets;iris = datasets.load_iris()通过上面的代
2017-05-18 11:33:27 589
原创 py 字符串相关
1.%s占位符形如("占位符1,占位符2")% (arg1,arg2) 如 print (("%s: %s") % ("now time is", time.ctime(time.time()))) 输出效果就是 now time is: Tue May 16 18:41:34 20172. +号运算符
2017-05-16 18:44:16 512
原创 seaborn, 数据可视化工具
1. 简介官网地址 seaborn是一个基于matplotlib的数据可视化python 库, 它提供了高层次的接口, 可以方便画出吸引人的统计图表.2. 常用函数3. 例子官网例子:Multiple linear regression Q:它的数据集在哪里呢? A:sns.load_dataset("tips")这个函数会去拼凑URL然后从https://raw.githubusercont
2017-05-16 14:01:30 1065
原创 Anaconda, 数据科学领域的python发行版
Anaconda, [,ænə’kɒndə] , 单词原意为水蛇.它是 python 的一个发行版, 如同 linux 的发行版有 centOS 与 ubuntu 一样.该发行版的特点是 面向数据科学 领域, 自带了常用的第三方package.anaconda下载页面.安装程序大小约470MB, 安装后的目录大小约1.8GB.为了在cmd,vs code 等环境下使用, 需要添加以下三个环境变量:就像 maven 中央仓库的地址配置一样. 因为境外通信很慢.在用户目录下 创建 文本文件, 填入
2017-05-16 09:34:48 1810 1
原创 集成学习
1. 概述集成学习, Ensemble Learning. 通过多个学习器来完成学习任务. 图1-1 显示出集成学习的一般结构: 先产生一组个体学习器, 再用某种策略把它们结合起来. 图1-1 集成学习示意图 集成学习通过对多个学习器进行结合, 常可获得比单一学习器优越的泛化性能.2. Boostingboosting是一种可将弱学习器提升为强学习器的算法. 大致过程见下.先从初始训练集
2017-05-14 16:27:32 980
原创 分类-决策树
1.概述决策树是一棵通过一系列的判断得到最终决策的. 图1 西瓜数据集 图2 由西瓜数据集得到的决策树2.相关概念2.1 信息熵信息熵,Information Entropy, 是度量样本集合纯度最常用的一种指标. 假定样本集合D中包含了n类样本, 第k类样本的出现频率为pkp_k, 则D的信息熵定义为 Ent(D)=−∑k=1npklog2pk(1)Ent(D)=-\sum_{
2017-05-12 10:44:38 624
原创 强化学习
简述强化学习, Reinforcement Learning. 强化学习中, 要训练的模型称为agent, 与有监督学习不同, 没有现成的label告诉它, agent需要与环境不断地进行交互, 根据环境的反馈来获得知识. 强化学习任务对应了四元组E=<X,A,P,R>E=<X,A,P,R>E= X: 状态空间 A: 动作空间 P: 转移函数 R: 奖赏函数....
2017-05-11 16:41:33 975
原创 统计语言模型
统计语言模型, Statistical Language Model.1. 简介自然语言具有上下文相关的特性, 所以统计语言模型就是为这种相关特性建立语言模型. 它是今天所有自然语言处理的基础. 判断一个句子是否合理, 就用概率来衡量. 一个句子就是一些词语的序列, 假定用S表示, S=w1,w2,...,wnS=w_1, w_2, ... , w_n, 那么S是一个通顺的句子的概率P(S)=
2017-05-07 15:34:00 3529
原创 神经网络概述
简述人工神经网络,Artificial Neural Networks。它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。 一个神经网络可以表示为一个人工神经元的图,或者说节点和有向边,用来对突触建模。每个神经元是一个处理单元,它将连接到它的节点的输出作为输入。损失函数, l...
2017-05-04 14:00:50 2368
win7防音量过大自干预程序_ vs2010完整解决方案.zip
2013-09-21
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人