自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 股票价、量走势图绘制

本节主要计算获得绘图所需的横轴和纵轴指标数据,包括股票代码600000的2017-01-03至2017-01-20日的收盘价格数据,2017-01-03至2017-01-24日的交易量数据和2017年1月至11月的交易量统计数据D,这里主要涉及数据的筛选及简单循环计算的编程技能。dt=data.loc[data['股票代码']==600000,['交易日期','收盘价','交易量']]plt.title(u'月交易量分布图',fontproperties='SimHei')

2022-12-22 19:39:47 1855 1

原创 上市公司净利润增长率的计算

上市公司净利润增长率是公司基本面分析的重要参考指标,其指标的计算也是金融数据挖掘分析中的一个重要基础任务。本案例要求计算连续三年的净利润增长率,通过观察连续三年的净利润增长率情况,可以选出成长能力较好的上市公司,从而为投资者提供一定的参考价值。其次对满足条件的股票代码,采用循环的方式,依次取得。年都存在利润数据的上市公司,不满足条件的删除。最后将结果整理为数据框的形式展现出来,其中。将净利润增长率数据定义为字典。年的净利润数据,将其转化为。数据组的形式,假设记为。,依次存放股票名称、将字典转化为数据框,

2022-12-22 19:34:35 1460

原创 股票几个指数周收益率和月收益率的计算

在本案例中,我们介绍了利用交易日历表寻找每周最小交易日和最大交易日、每月最小交易日和最大交易日两个算法,希望对读者有所启示。)字段可以看出,当前星期值比下一个星期值大,其对应的交易日即为本周的最大交易日,下一个星期值对应的交易日即为下周的最小交易日。由于我们获取的数据为日行情交易数据,无法直接计算周收益率,需要对交易日历数据进行处理,即找出每周的最大交易日和最小交易日。从交易日历表的星期(后,就可以通过循环的方式,依次取最大交易日和最小交易日对应的收盘指数,利用前面介绍的公式计算即可获得周收益率指标数据。

2022-12-22 19:31:43 4449

原创 案例分析: 众包任务

用户下载APP,注册成为APP会员,然后从APP上领取需要拍照的任务(比如上超市去检查某种商品的上架情况),赚取APP对任务所标定的酬金。附件二是会员信息数据,包含了会员的位置、信誉值、参考其信誉给出的任务开始预订时间和预订限额,原则上会员信誉越高,越优先开始挑选任务,其配额也就越大(任务分配时实际上是根据预订限额所占比例进行配发)。个任务与所有任务、所有会员之间的由点到线的计算。个任务点与所有任务(线)、所有会员(线)之间的计算,在此基础上利用循环即可实现所有任务与所有任务、所有会员之间的指标计算。

2022-12-22 19:23:37 1237

原创 案例分析

list2=[]

2022-12-02 10:13:38 257

原创 降维

降维算法:主成分分析;因子分析;,独立成分分析主成分分析:PCA数据从原来的坐标系转换到新的坐标系,新坐标系的选择是由数据本身决定的。第一个新坐标轴选择的是原始数据中方差最大的方向,第二个新坐标轴选择和第一个新坐标轴正交且具有最大方差的方向代码e=1正相关e=0线性无关,不保证非线性无关e=-1负相关Y=PX ↓

2022-11-22 19:24:31 182

原创 基于用户协同过滤,基于物品协同过滤

皮尔孙person_sim(i,j)→优先使用斯皮尔曼秩相关系数(秩:排序)spearman_sim(i,j)优点:不需要先验知识;它的秩与矩阵的秩无关;i增加j增加,系数正相关杰卡德相似度Jaccord_sim(u,v)→隐式反馈用户基于物品的:物品相似度(相关系数衡量);已知评分×相关系数=未知可能性;排序(降序)基于用户的:用户相似度;用相似度加权求物品分数;求物品总分;总相似度(剔除无评分的相似度);推荐度=总分(某物)÷总相似度协同过滤推荐算法其功能是预测和

2022-11-17 21:58:28 569

原创 向量空间模型

文档建模:要使计算机能够高效地处理真实文本,就必须找到一种理想的形式化表达方法,这个过程就是文档建模向量空间模型:把文本内容的处理简化为向量空间中的向量运算,用向量空间上的相似度来表达语义的相似度非结构化(文本,图像,视频)→向量化词袋模型:缺点:词袋模型假设各词的重要程度相同,导致文本的表示受到常用词的影响比较大,文本中词的频率服从长尾分布(齐普夫分布);忽略文档长度,同一个词在长文档中出现的频率比短文档的高↓优化TF-IDFTF:词频IDF:逆文档频率基本思想:假设词

2022-11-10 16:01:13 603

原创 推荐系统(多样性,惊喜度,测试方法……)

多样性:推荐给客户的商品列表的异质性(长远利益)diversity=1-s惊喜度:通过惊奇度和相关性来表达sere=surprise×rei(user)惊喜度:surprise=(pi(user)-pi(alluser),0)pi=(n-rank i)/(n-1)新颖度:Nove=Σ㏒2 pi /n越高,商品越长尾实时性:对用户进行快速的计算和推荐(过滤模块)注入攻击:受控账号E:开发利用:现在可用的最佳方案E:探测:选用不确定的方案取长期利益EE问

2022-11-05 21:48:27 890

原创 排序模块 过滤模块

优点:用户反馈(单击,观看,搜索,时长);完整的人口统计学信息(信息,位置);包含用户的行为历史信息;超线性特征过滤模块:用户过滤规则(用户已经购买的物品,不适合公开展示的品类,用户评分过低的商品,重复推荐的商品,同型号的商品推荐利润高的,不推荐热销商品)

2022-10-29 21:54:07 69

原创 推荐系统

长尾商品:个性化的商品推荐系统核心要素①用户:与推荐系统进行交互,向用户推荐个性化商品userID 用户名 注册时间 最后上线时间 age性别 城市 国别②物品和内容itemID 名称 描述 创建时间 更新时间分享次数 ③事件:用户和系统的交互过程显示反馈:明确给出反馈存在问题:数据稀少,用户个性影响评分,两级分化严重,脱离语境的显示反馈不用推荐隐示反馈:用户没有明确的给出反馈,根据用户行为推测好物用户行为:站上活动,交易行

2022-10-21 17:06:17 475

原创 逻辑回归

逻辑回归和多重线性回归实际上有很多相似之处。

2022-10-15 16:53:39 263

原创 回归算法与运用

#导入numpyimport numpy as np#导入可视化工具matplotlibimport matplotlib.pyplot as plt#生成一个-10到10之间,元素数为200的等差数列x = np.linspace(-10,10,200)#输入直线方程y = -2*x + 3#使用matplotlib绘制折线图plt.plot(x,y,c='purple')#图题设为“basic linear model”plt.title('basic lin

2022-10-15 16:45:05 558

原创 岭回归(Ridge Regression)和Lasso回归

岭回归(Ridge Regression)岭回归也是一种用于回归的线性模型,因此它的预测公式与普通最小二乘法相同。但在岭 回归中,对系数(w)的选择不仅要在训练数据上得到好的预测结果,而且还要拟合附加约束。我们还希望系数尽量小。换句话说,w 的所有元素都应接近于0。直观上来看,这意味着每个特征对输出的影响应尽可能小(即斜率很小),同时仍给出很好的预测结果。 这种约束是所谓正则化(regularization)的一个例子。正则化是指对模型做显式约束,以避免过拟合。岭回归用到的这种被称为 L2 正则化。

2022-10-01 10:14:15 2968

原创 核函数,核参数

1、线性核优点:方案首选,奥卡姆剃刀定律,简单,可以求解较快一个QP问题,可解释性强:可以轻易知道哪些feature是重要的,限制:只能解决线性可分问题2、多项式核基本原理:依靠升维使得原本线性不可分的数据线性可分;升维的意义:使得原本线性不可分的数据线性可分;优点:可解决非线性问题,可通过主观设置幂数来实现总结的预判缺点:对于大数量级的幂数,不太适用比较多的参数要选择,通常只用在已经大概知道一个比较小的幂数的情况3、高斯核优点:可以映射到无限维,决策边界更为多样只有

2022-09-24 16:31:37 1115

原创 机器学习

支持向量机SVM机器从经验数据中推导并找到规律的这一过程称为学习,把将规律应用于新数据这一过程称为预测,其中的规律称为模型机器学习的框架:选择知识,选择学习方法,学习或记忆,运用,评测学习效果,知识保存到脑海中Python的第三方模块Scikit-learn来构建机器学习的基本框架训练集的作用是用来拟合模型模型在训练集上的误差称为训练误差在新样本上的误差称为泛化误差AUC是一个概率值交叉验证:将数据集D划分为K个大小相似的互斥子集Python内置模块:sy

2022-09-18 11:29:51 91

原创 机器学习的框架:数据加载方法,模型

数据加载方法文本文件:CSV、TSV、Json、TxtCSV文件是逗号分隔值(Comma-Separated Values,CSV),其文件以纯文本形式存储表格数据(数字和文本)TSV 是Tab-separated values的缩写,即制表符分隔值,与csv和txt都同属于文本文件。不同点在于csv和tsv文件的字段间分别由逗号和tab键隔开(所以csv叫字符分隔值,tsv叫制表符分隔值)Txt文件则没有明确要求,可使用逗号/制表符/空格等多种不同的符号。 JSON (JavaScr

2022-09-18 10:50:07 223

原创 分布式计算,云计算

分布式计算分布式计算是一种计算方法,和集中式计算是相对的。随着计算技术的发展,有些应用需要非常巨大的计算能力才能完成,如果采用集中式计算,需要耗费相当长的时间来完成。分布式计算将该应用分解成许多小的部分,分配给多台计算机进行处理。这样可以节约整体计算时间,大大提高计算效率。中文名:分布式计算外文名:Distributed Computation类型:一门计算机科学优点:稀有资源可以共享包括:网格计算等工作原理:分布式计算是利用互联网上的计算机的中央处理器的闲置处理能力来解

2022-09-18 10:25:02 1699

原创 深度学习框架

CaffeTheanoTensorFlowTorchPytorchMXNetcuda-convnet2NeonDeeplearning4jCNTKPaddlePaddleKerasTensorFlow Google开源的深度学习框架,一开始主要面向的是分布式系统。从官方介绍上来看,具有非常好的延展性,在多GPU/多机上拥有最好的灵活性。另外Google的强有力支持也算是一大优点。初期版本在单机和一些小任务上性能差强人意,在一些基准测试上甚至常常被其他框架甩下一

2022-06-30 21:43:07 1743

原创 PCI接口发展过程

PCI总线简介PCI(Peripheral Component Interconnect:外部设备互连)是由SIG集团推出的总线结构。它具有132 MB/S的数据传输率及很强的带负载能力,可适用于多种硬件平台,同时兼容ISA、EISA总线,PCI总线是一种高性能局部总线,是为了满足外设间以及外设与主机间高速数据传输而提出来的,在数字图形、图像和语音处理,以及高速实时数据采集与处理等对数据传输率要求较高的应用中,采用PCI总线来进行数据传输,可以解决原有的标准总线数据传输率低带来的瓶颈问题。PCI可插

2022-06-28 22:14:56 331

原创 CPU与外设之间的信息交换方式

I/O接口组成:数据缓冲器,设备选择电路,命令寄存器和命令码器,设备状态标记,控制逻辑电路I/O接口功能:设备选择,速度匹配,串行转换,电平转换,传送控制命令,反应设备状态为了与CPU交换信息的方便,在接口内部一般要设置一些可以被CPU直接访问的寄存器,这些寄存器称为端口。接口内用于接收来自CPU等主控设备的命令控制的寄存器称为命令端口。接口内向CPU报告I/O设备的工作状态的寄存器称为状态端口或状态口对端口安排地址:统一编址方式,I/O独立编址输入输出设备同CPU交换数据的一般过程

2022-06-27 22:00:52 3460

原创 数据挖掘,Hadoop,深度学习

数据挖掘是大量的,不完全的,有噪声的,模糊的,随机的实际应用数据中提取,隐含在其中的人们实现不知道的,但又是潜在有用的信息和知识的过程。数据源必须是真实的,海量的,含噪声的。数据挖掘的研究重点逐渐从发现方向转向系统应用,注重多种发现策略和技术的集成以及学科之间的相互渗透。备份v1.0 , v1.1 , v2.0数据挖掘本质上是一种深层次的数据分析方法。鱼骨图Hadoop实现了一个分布式文件系统,框架最核心的设计是HDFS, MapReduceMap在处理数据序列的过程中指处理..

2022-06-22 22:31:26 923

原创 总线系统

总线是构成计算机系统的互联机构,是多个系统功能部件之间进行数据传送的公共通路。CPU内部连接各寄存器及运算部件之间的总线,称为内部总线。CPU同计算机系统的其他高速功能部件,称为系统总线。中低速I/O设备日间互相连接的总线称为I/O总线。总线的物理特性是指总线的物理连接方式。地址总线的宽度指明了总线能够直接访问存储器的地址空间范围数据总线的宽度指明了访问一次存储器或外设时能够交换数据的位数控制总线包括CPU发出的各种命令地址总线总是输出线,数据总线总是双向传送的信号线,控制总

2022-06-17 20:28:21 758

原创 大数据

大数据定义:一种规模大到一种规模大到在获取、存储、管理、分析方面大大超出的传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。从狭义上讲,大数据主要是指大数据技术及其他在各个领域中的应用大数据具有4个基本特征,数据规模大,数据种类多,处理速度快以及数据价值密度低及4VBI商业智能网络爬虫是搜索引擎抓取系统的重要组成部分整个搜索引擎系统主要包含四个模块,分别为信息搜索模块、信息索引模块、信息检索模块和用户接口部分,而网络爬虫便是信息

2022-06-16 22:14:59 216

原创 时序产生器和控制方式,流水CPU

时序信号从时间上来说,取指令时间发生在指定周期的第一个CPU中周期中,即发生在取指令阶段,而取数据事件发生在执行指令阶段 ;从空间上来说,如果取出的代码是指令,那么一定送往指令寄存器,如果取出的是代码是数据,那么一定送往运算器计算机的协调动作需要时间标志 ,而时间标志则是用时序信号来体现的时钟源是用来为环形脉冲发生器提供频率稳定且电瓶匹配的方波时钟脉冲信号控制方式:同步控制方式,异步控制方式,联合控制方式微程序设计技术是利用软件方法来设计硬件的一门技术冯伊●诺曼的体系结构采用的...

2022-06-11 16:09:26 533

原创 层次聚类的方法,基于密度的方法

自底向上的方法又称为凝聚(AGNES)自顶向下的方法又称为分裂(DIANA)看k值有几簇基于密度方法DBSCAN算法(ξ,MinPts)核心对象,密度可达,密度相连边界点

2022-06-08 20:11:39 72

原创 关联规则挖掘算法

k-means多个均值,无监督学习k-Medolds k近邻(k选奇数,要有类标签,监督学习)支持度support置信度confidence挖掘过程包括两个阶段:第一阶段先从数据集中找出所有的频繁项集,它们的支持度大于等于最小支持度阀值min sup。第二阶段由这些频繁项集产生关联规则,计算它们的置信度剪枝规则:如果一个项属于非频繁项集,那么它的超集也是非频繁项集;如果一个项属于频繁项集,那么它的子集是频繁项集拟合优度:rv=clf.score(x,y)......

2022-06-02 16:33:57 190

原创 典型指令,CPU的组成和功能,指令周期

指令的分类:数据处理、数据存储、数据传送、程序控制CISC的指令系统一般多达二三百条一些最简单最基本的指令,仅占指令总数的20%RISC指令系统的最大特点:选取使用频率最高的一些简单指令,指令条数少;指令长度固定,指令格式种类少,寻址方式种类少;只有取数/存数指令访问存储器,其余指令的操作都在寄存器之间进行嵌入式CPU功能:指令控制(按程序规定的顺序进行),操作控制(由若干个操作信号的组合),时间控制,数据加工CPU执行指令为主线来组织数据缓冲器DR指令寄存器IR程.

2022-05-30 20:26:23 340

原创 操作数类型,指令和数据的寻址方式

数据通常分以下四类:地址数据:寄存器编号,存储器地址数值数据:定点整数或定点小数,浮点数,压缩十进制数字符数据逻辑数据存储器既可以用来存放数据,又可用来存放指令其存储单元的编号就是该操作数或指令在存储器中的地址几乎所有的计算机,在内存中都采用地址指定方式在冯●诺依曼型结构的计算机中,内存中指令的寻址与数据的寻址是交替进行的。而哈佛型计算机中指令寻址和数据寻址是独立进行的采用指令跳跃寻址方式,可以实现程序转移或构成循环程序 ,从而能缩短程序长度操作数的来源 :由指令..

2022-05-28 21:28:34 461

原创 在线机器学习,数据挖掘概述

数据来源→数据探索:可视化→预处理:规范化,填充→模型(也就是算法)从这些数据中提取有价值的信息和知识以帮助做出明智的决策成为巨大的挑战数据挖掘DM数据库知识发现KDD数据挖掘的任务分为预测型和描述型数据挖掘过程与方法:预估模型:包括分类和预估两种类型,聚类技术,连接技术,时间序列分析决策分类法,基于规则的分类器,朴素贝叶斯分类器,基于距离的分类算法闵可夫斯基距离:曼哈顿距离,欧式距离聚类分析的基本方法:聚类分析的研究主要基于距离和相似度......

2022-05-28 16:02:58 101

原创 指令系统发展与性能要求,格式

计算机的程序是由一系列的机器指令组成的指令就是要计算机执行某种操作的命令 。计算机的指令有微指令、机器指令和宏指令之分 。微指令是微程序集的命令,它属于硬件; 宏指令是由若干条机器指令组成的软件指令,它属于软件;而机器指令则介于微指令一指令之间,通常称为指令。每一条指令可完成一个独立的算数运算和逻辑运算操作 。一台计算机中所有机器指令的集合称为这台计算机的指令系统,也叫指令集。所谓系列计算机,是指基本指令系统相同、基本体系结构相同的一系列计算机 。复杂指令系统计算机,简称CISC,指令多,.

2022-05-22 11:16:45 244

原创 贝叶斯定理

朴素贝叶斯分类算法:独立线性图plot柱状图bar直方图hist饼图pie子图subplot箱线图boxplot.iloc索引是数值.loc文本索引降序ascending=False

2022-05-19 22:16:25 119

原创 简述RAID 0,1,5,10区别

一、RAID卡概述  1、DELL阵列卡(RAID卡)  RAID是英文Redundant Array of Independent Disks的缩写,中文简称为独立冗余磁盘阵列。简单的说,RAID是一种把多块独立的硬盘(物理硬盘)按不同的方式组合起来形成一个硬盘组(逻辑硬盘),从而提供比单个硬盘更高的存储性能和提供数据备份技术组成磁盘阵列的不同方式称为RAID级别(RAID Levels)。集中管理思想:资源整合,用统一标准进行管理2、基本作用:网站数据量很大的时候,单块盘装不下了,购

2022-05-18 19:58:34 48903

原创 磁盘存储设备

磁记录原理磁盘存储器、磁带存储器均属于磁表面存储器磁表面存储器的优点 :存储容量大,位价格低 ;记录介质可以重复使用 ; 记录信息可以长期保存而不丢失,甚至可以脱机存档 ; 非破坏性读出,读出时不需要再生信息若在写线圈里通入相反方向的脉冲电流,就可得到相反极性的磁化元磁盘的组成和分类可移动磁头固定盘片的盘磁机 、固定磁头磁盘机、可移动磁头可换盘片的磁盘机 、温切斯特磁盘机接口:IDR→SATA光的单位:流明主轴系统的作用是安装盘片,并驱动它们以额定转速旋转磁盘上信息.

2022-05-13 21:25:37 375

原创 神经网络,决策树学习

神经网络缺陷:不可解释损失函数类型:二次损失函数 交叉熵损失函数 对数损失函数神经网络类型:单层神经网络(单层感知机)、两层神经网络(多层感知机)、多层神经网络(深度学习)、卷积神经网络、循环神经网络求数据集的熵(标签项)gain增益...

2022-05-11 21:38:18 314

原创 感知器学习,散点图

激活函数:y=kx, sigmoid(x), tanh(x),ReLU(x),sgn(x)下面给出单层感知器学习算法描述 :(1)设置变量和参数 ,f(x)为激活函数,y(n)为网络实际输出matplotlib画布figure绘图plt.plot散点图的意义 : 考察坐标点的分布,判断两变量之间是否存在某种关联或总结坐标分布点的模式...

2022-05-08 20:26:22 302

原创 虚拟存储器、外围设备概述

把页表中最活跃的部分存放在高速存储器中用于页表缓存的高速存储器部件通常称为转换后援缓冲器(TLB),又称为快表。而保存在主存中的完整页表则称为慢表。段式虚拟存储器页面是主存物理空间中划分出来的等长的固定区域。分页方式的优点是页长固定,而便于构造页表、易于管理、且不存在外碎片,但分页方式的缺点是页长与程序的逻辑大小不相关 。设置段长字段的目的是保证访问某段的地址空间时,段内地址不会超出该段长度导致地址越界破坏其他段段表本身也是一个段,可以存在辅存中,但一般驻留在主存中 。分页对程序..

2022-05-06 20:46:16 240

原创 pentium4的cache组织 虚拟存储器

Pentium4的cache布局图二级和三级缓存中,数据和指令不分开存放, 一级中是分开的一级cache存储4个时钟周期二级cache存储11个时钟周期三级cache存储40个时钟周期解决问题: 内存空间不够用,相对于程序大小来说,覆盖技术手动把运用程序需要的指令数据保存在内存中 ,目标:在较小的程序中运行较大的程序交换技术: 操作系统自动把暂时不执行的程序保存在外存中,交换技术目标 : 增加正在运行或需要运行的程序的内存换入换出的基本单位是整个进程的地址空间用...

2022-05-03 11:23:37 398

原创 第六章 机器学习

学习系统的基本模型学习策略分为记忆学习,归纳学习,类比学习,传授学习,演绎学习和联结学习示例学习是有监督学习示例学习的模型记忆学习系统的模型特化:一种由一般到特殊的偏序关系泛化概念聚类是无监督学习熵类比学习的基本过程:搜索匹配,选择规则,建立对应的关系,更新知识库神经学习sigmoid函数...

2022-04-27 21:53:41 1205

原创 并行存储器,cache

芯片技术、结构技术、系统结构技术双端口存储器由于同一个存储器具有两组相互独立的读写控制电路而得名当两个端口的地址不相同时,在两个端口上进行读写操作 ,一定不会发生冲突当两个端口同时存取存储器统一存储单元,而且至少有一个端口为写操作时,便发生读写冲突判别逻辑顺序方式的缺点是各模块一个接一个串行工作 ,因此存储器的带宽受到限制顺序方式:串行传输,地址连续交叉方式:并行传输,地址不连续cpu与cache之间的数据交换是以字为单位,而cache与主存之间的数据交换是以块为单位...

2022-04-23 22:09:42 321

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除