自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(86)
  • 资源 (3)
  • 收藏
  • 关注

原创 半量化交易(二)

个人交易中的专业背景限制、资金成本限制、对股市的理解限制等等,使个人在进行量化交易时,可能出现程序推荐股票不是自己像买股票这种情况,由于投资者自身能力有限,不能全面的考虑可能出现的各种可能,所有在选择上可能存在异常的偏差。因此,本问将为个人投资者介绍另一种简单容易实现的方法,半量化交易。本文接下来也将对半量化股票的选股、指标建立、模型搭建、数据存储进行研究。

2022-09-05 18:03:11 576 1

原创 半量化交易(一)

程序自动选优质股,再判断是否有买入卖出信号进行操作

2022-08-06 16:18:24 869

原创 数据分析师之路

简介:目前在整理个人的项目中,将写过的项目整理了一下。以后也会持续更新。。。。一、网络爬虫https://gitee.com/zcy4747/internet-worm.git1. 当当网数据爬虫2. 链家网络爬虫3. 眼电影数据爬虫4. 汽车之家网络爬虫5. 微博爬虫及热度跟踪二、数据分析https://gitee.com/zcy4747/data-analysis.git1. 安居客二手房数据分析2. 购物栏分析-关联规则3...

2021-04-03 16:49:46 342

原创 基于泰尔森回归的股票预测研究

基于泰尔森回归的股票预测研究 绪论背景目的流程主要内容数据获取与数据存储数据调取以及案例数据分析模型比较分析2.3.1 模型初始化2.3.2模型创建2.3.3 模型可视化2.3.4 预测结果模型应用2.4.1案例测试应用2.5 预测结果绪论背景预测股市将如何变化历来是最困难的事情之一。这个预测行为中包含着如此之多的因素—包括物理或心理因素、理性或者非理性行为因素等等。所有这些因素结合在一起,使得股价波动剧烈,很难准确预测。但是,股票曲线的波动,往往代表的都是利益。比较传统的研究模型,大多是时序模型、神

2021-01-11 17:09:02 1564 1

原创 机器学习实战之回归分析(一)

线性回归回归分析(Regression Analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法 ,是一种预测性的建模技术。线性回归,简单而言,就是将输入项分别乘以一些常量,再将结果加起来得到输出。线性回归包括一元线性回归和多元线性回归。一、一元线性回归1、一元线性回归 线型回归分析中,如果仅有一个自变量与一个因变量,且其关系大致上可用一条直线表示,则称之为简单回归分析。 如果发现因变量Y和自变量X之间存在高度的正相关,可以确定一条...

2020-11-02 21:25:40 1372 1

原创 pytorch项目: UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xc9 in pos

这里有个大坑。 我一直在尝试,以为是我的版本出现了问题,一直跟换我的虚拟环境的版本,但是最终无法解决。修改代码里面的编码格式,也无法解决。现在已经解决,解决方法非常简单。我重新安装pychram2018,就一切没问题的。...

2020-09-01 19:21:35 766

原创 创建虚拟环境并,创建pytorch 1.3.1

#创建虚拟环境conda create pythorch_demo python==3.7创建pytorch 1.3.1conda install pythorch==1.3.1 torchvision==0.4.2

2020-08-27 15:49:48 1602

原创 nlp 笔记

在进行假新闻项目时候。1、需要合并A、B两个已经分词的 两个新闻。2、建立一个空字典。3、查看所有新闻标题,头部没出现一个字典里面没有的词典,就应该为词典指定一个字典里面没有出现索引的数字,并放入词典。4、利用建立好的词典,将每个新闻标题里头的词典转换成数字。text = '狐狸被陌生人拍照'words = pseg.cut(text)words = [w for w, f in words]words['狐狸', '被', '陌生人', '拍照']建立词典。word.

2020-08-02 17:15:53 170

原创 超级详细的pytorch安装教程

https://baijiahao.baidu.com/s?id=1673684700521033624&wfr=spider&for=pc

2020-08-01 15:25:07 1426

原创 基于图形的神经多文档摘要(2017年最新研究情况)

一、背景研究早期的文档摘要主要式抽取式,对句子的重要程度进行排序,与进行句子选择。然后,他们使用一系列的算法选择值得总结的句子,比如图中心性。还有基于整数规划的线性的约束优化,svm回归。从13年开始,最新神经网络摘要非常受欢迎。但神经网络方法再处理多文档摘要时候还存在问题。多文档摘要中需要考虑句子之间的篇章关系,这很重要。二、历史研究情况神经网络摘要的发展:例如Rush等人(2015)引入了一种基于神经注意前馈网络的句子压缩模型。Wang和Ling(2016)采用...

2020-07-19 22:09:38 336

原创 python 安装下载scrapy

安装scrapy之前需要安装Twisted,所以输入以下命令pip install Twisted -i https://pypi.douban.com/simple/下载很快,几秒搞定。第二部,下载scapypip install scrapy -i https://pypi.douban.com/simple/也是几秒搞定查看以下下载情况pip list...

2020-07-13 19:08:52 1071

原创 dataZoom 参数

dataZoom=[ //区域缩放 { id: 'dataZoomX', show:true,   //是否显示 组件。如果设置为 false,不会显示,但是数据过滤的功能还存在。 backgroundColor:"rgba(47,69,84,0)",    //组件的背景颜色 type: 'slid.

2020-06-14 16:58:27 456

原创 python 力扣 days two

一、旋转数组给定一个数组,将数组中的元素向右移动k个位置,其中k是非负数输入: [1,2,3,4,5,6,7] 和 k = 3输出: [5,6,7,1,2,3,4]解释:向右旋转 1 步: [7,1,2,3,4,5,6]向右旋转 2 步: [6,7,1,2,3,4,5]向右旋转 3 步: [5,6,7,1,2,3,4]输入: [-1,-100,3,99] 和 k...

2020-04-17 23:11:26 164

原创 python 力扣练习 day one

一、删除排序数组中的重复项给定一个排序数组,你需要在原地删除重复出现的元素,使得每个元素只出现一次,返回移除后数组的新长度。不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空间的条件下完成。给定数组 nums = [1,1,2], 函数应该返回新的长度 2, 并且原数组 nums 的前两个元素被修改为 1, 2。 你不需要考虑数组中超出...

2020-04-16 23:09:14 277

原创 python 插入排序

一、算法思想待排序序列,由第二个开始,对前一个进行比较,后面比前面小,则交换位置,其他不变。第二次,从第三个开始,前面两个已经排序完成,对第三与第二进行比较,大则不变,小则交换。循环到最后一个。二、动态示意图由上可知,这是直接插入排序,每次将一个鑫数据插入到有序队列的合适位置里。‘三、代码def inserSorts(input_list): '''...

2020-04-16 12:29:49 248

原创 python 冒泡排序

一、冒泡排序1、冒泡排序实质是一种交换排序。即下标相邻索引数据两个之间有小到大,两两进行排序,直到所有数据不再两两交换为止。2、算法思想第一次循环:下标索引两数据,有最小索引数据开始,与后一数据进行比较。如果后面数据比前面大,则不交换,最小索引下标进一,继续进行两两比较,直达序列最后为止。第二次循环:又由最小下标开始,两两进行比较,直到最后。循环len(序列)个数为止。动态...

2020-04-14 22:41:01 2514

原创 snap "eclipse" has "install-snap" chage in progress ubuntu下载eclipse失败

第一步:snap changes第二步:根据上面输出的结果,id数值下对应下载失败的,我这里是5,所以写5sudo snap abort 5第三步骤snap install --classic eclipse等待即可...

2020-04-02 12:31:02 340

原创 在 ubuntu 上安装hadoop

1、第一步,安装Ubuntu随便找个教程安装就可以了第二步,进去之后窗口是非常小的,我们来弄一下全屏点击虚拟机----安装VMware-tools 安装成功之后会在桌面显示VMware-tools文件先吧这个压缩包复制一下,粘贴到其他位置,我是粘贴到这里提取到此处就可以看见这两个,进去文件夹进去文件之后,右键打开终端...

2020-03-19 22:24:40 1039

原创 python 蓝桥杯模拟赛 时间计算

不知天上宫阙,今夕是何年。对于完美日期yyyy/mm/dd,wlxsq的定义是:年月日中均没有出现数字4,年月日的数位之和是8的倍数例如:2020/02/02 就是一个完美日期,没有出现数字4,且数位之和是8的倍数。wlxsq想知道从2020/02/22开始,第88个完美日期是哪个?#设置初始值y = 2020m = 2d = 2#设置俩个月份,能被4整...

2020-03-01 21:05:52 481

原创 Tesserocr安装下载(里面有点坑)

这边下载有点慢,这里提供一下自己百度云的.我已经下载好了.链接:https://pan.baidu.com/s/1-a69qU0aFu8_IlYzy0QgMQ提取码:yd7i链接:https://pan.baidu.com/s/1Tt9vRsbk7uX9VVTGb36OiA提取码:1yhh上面这两个文件需要下载一下,这两文件分别是tesserocr-2.4.0-cp37-...

2019-11-25 17:56:26 2893 1

原创 贝叶斯学习笔记

一.贝叶斯优点: 在数据较少的情况下仍然有效,可以处理多类别问题.在某些领域的分类问题中能够与决策树、神经网络相媲美缺点: 对输入数据的准备方式比较敏感适用数据类型: 标称型数据贝叶斯需要解决的问题: 正向概率,逆向概率正向概率: 假设袋子里面有N个白球,M个黑球,伸手摸一个球,摸出黑球的概率.向上面那样,一直球的总树,求解摸球的概率.逆向概率: 如果我们事先并...

2019-11-03 19:32:37 435

原创 机器学习决策树笔记

一,决策树 决策树是一种分类算法.在生成决策树算法,主要又两个阶段,训练阶段与分类阶段. 训练阶段,是从给定的训练集数据中,构造出一颗决策树. 分类阶段, 是从根开始,按照决策树的分类属性,逐层往下划分,直到叶节点获得概念(决策 \ 分类 )结果.决策树问题,首先要面对的,是对当根节点这个问题.这里,我们引入信息熵,信息熵表示数据的混乱程度. ...

2019-10-31 21:10:20 530

原创 基于线性回归的股票预测案例

基于线性回归的股票预测案例本次的案例使用的是股票数据,数据源从www.quandl.com 获取.本次案例主要是为了练习线性回归pip install quandl 安装quandl库.在使用的时候,把quandl的导入.import quandl数据集介绍,Adj 的是除权重之后的数据,更能翻译股票数据特征,所有主要使用的特征为调整之后的开盘价,最高价,最低价,收盘价与交易额....

2019-10-24 21:40:57 6034 1

原创 python案例详解与梯度下降公式推导

什么是梯度下降,举个栗子,(假设地面无障碍物)我们在山顶丢一个网球,啪,一下就越过这个坡了,然后在另一个沟里来回跳动,一直到达最低点。那么问题来了,这这里在跳跃的过程中,直接越过第一个坡度。这样的结果就是使得我们的小球无法到达最低点,对应到程序上就是我们在梯度下降的时候无法找到最优值。 ...

2019-10-23 15:59:20 371

原创 numpy的操作笔记

import numpy as npfrom numpy.linalg import *创建一个数值范围为0-1,间隔为0.01的数组my_array1 = np.arange(0,1,0.01)print(my_array)print('my_array的个数:',np.size(my_array)) 创建100个服从正态分布的随机数。 my_array2 = np...

2019-10-13 17:17:26 4354

原创 juoyter notebook里面运行R的方法

默认已经安装R,首先,install.packages(c('repr', 'IRdisplay', 'evaluate', 'crayon', 'pbdZMQ', 'devtools', 'uuid', 'digest'))devtools::install_github('IRkernel/IRkernel')运行它,如果出现错误,请把那个包手动安装,安装方式是,点击pack...

2019-10-11 12:05:19 235

原创 R语言下载库,包.使用镜像

install.packages("ggplot2",repos="https://mirrors.tuna.tsinghua.edu.cn/CRAN/")

2019-10-09 22:11:10 3160

原创 同一文件夹下的两个python文件缺不能import

解决办法,右键点击项目文件夹找到Mark Directory as点击Resource Root,.................................完美解决......................................

2019-09-29 16:27:19 1445

原创 机器学习实战篇-----1(KNN算法)

一、kNN 本章主要介绍KNN算法,也称为K-近邻算法。简单的说,knn算法采用测量不同特征值间的距离来对数据进行分类,即我们初中时候学过的两点之间的距离公式,有没有想起来,根号下(A-B)**2,这就是欧氏距离,简单吧。 现在来介绍一下KNN的计算的过程,①计算测试集与与训练集数据的距离...

2019-09-28 18:32:46 1148 1

原创 python listdir 函数的使用

#返回trainingDigits目录下的文件名trainingFileList = listdir('trainingDigits')#返回文件夹下文件的个数m = len(trainingFileList)

2019-09-27 22:10:09 577

原创 超简单,KNN 近邻算法理解

训练集数据,带标签的。测试集数据,不带标签。适用,数据型数据1)计算测试集与与训练集数据的距离,用欧式距离计算(两点间的距离公式,初中那种)。2)对每个距离进行排序,取K个最近的。(又叫“k邻近”),计算出现频率,取最高的...

2019-09-26 21:12:02 119

原创 异步加载

在爬虫中,所谓的异步加载。指的是网页吧真实数据隐藏,我们看到的数据是被渲染过的页面。我们通过普通的方法对页面进行爬虫,是永远爬不到真实数据的。所谓真实的数据,是正确的链接下内的数据内容。我们对有异步加载的页面进行爬虫时:第一步,最关键就是要找到网页的链接,这个链接通常是正常的URL+一些参数,我们在进行寻找的就是这些参数是什么?值怎么获取? 这个时候我们需要按F12,点击network...

2019-09-25 21:10:55 329

原创 将项目上传到github上

1.点击new repositiry2.填写相应信息Repository name: 仓库名称Description(可选): 仓库描述介绍Public,Private: 仓库权限(公开共享,私有或指定合作者)Initialize this repository with a README: 添加一个README.mdgitignore: 不需要进行版本管理的仓库类...

2019-09-25 10:52:33 134

原创 将本地项目上传到码云仓库

找到在建立仓库时候联系的文件价1.初始化,git init2.git remote add origin 码云上面https哪个链接,复杂过来3. git pull origin master4. 将要上传的文件准备好放置在上面那个文件价中5. git add . //点代表所有,也可以写某个文件名称6. git commit -m "注释:第二次下载"7...

2019-09-24 21:56:08 500

原创 码云入门,上手下载第一个和上传项目

以前都是自己吧代码保存在自己电脑,要是电脑和U盘奔了就好玩了,还是玩一下代码托管吧。第一步:卸载git,下载完一直next就行。注册一个码农账号注册这里提醒一下,记住自己的注册名,还有密码,等下要用到.第二步:简单完善一下自己的个人信息。然后开始准备创建一个仓库点击加号创建仓库给你的仓库建立一个名称。给你的仓库介绍写点东东,不写也行,然后直接点创...

2019-09-23 21:07:59 170

原创 微博数据的爬取,并对某一段时间热度进行检测

有网友反应数据不能再爬了,这里代码又更新了一次。已经能继续爬取。如还不能,可以联系。###导入模块import requestsfrom lxml import etreeimport timeimport os###网址url="https://s.weibo.com/top/summary?Refer=top_hot"###模拟浏览器header={'User-Age...

2019-09-23 16:29:24 2327

原创 mportError: cannot import name 'Bar' from 'pyecharts' 还有这个也出错Overlap

我的版本是1.5的,百度查了一下有问题。首先,卸载1.5的,pip uninstall pyecharts然后再下载pip install pyecharts==0.1.9.4 -i https://pypi.douban.com/simple/我们这里用镜像卸载解决等等等还是下载0.5.5版本的吧。最新版本用着用着又出错了这样就可以解决...

2019-09-22 20:06:36 2099

原创 xpath 用法

1. path 使用路径表达式在xml 和 html 中进行导航.2. xpath 包含标准函数库3. xpath 是一个w3c 的标准语法:arcticle : 选取所有arcticle 元素的所有子节点/arcticle : 选取根元素arcticlearcticle/a : 选取所有属于arcticle的子元素的a 元素//div : 选取所有div 子元...

2019-09-07 19:24:27 239

原创 爬虫去重策略

1. 将访问过的 url 保存到数据库中.2. 将访问过的 url 保存到本地内存中3 . 将 url 经过md5 编码等方法,哈希后保存到内存set中.(这个过程就是压缩处理)(scrapy 采用的就是这样方式)4. 用bitmap 方法,将访问过的url 通过hash 函数映射到某一位中.(缺点,易发生冲突)5.bloomfilter 方法对bitmap 进行改进,多重hash...

2019-09-06 17:18:12 114

原创 深度优先与广度优先(python)

深度优先def depth_tree(tree_node): if tree_node is not None: print(tree_node._data) if tree_node._left is not None: return depth_tree(tree_node._left) if tree...

2019-09-06 16:55:10 87

archive.zip

交叉验证数据集

2021-09-13

R-Sstudio.txt

官网下载超级超级慢,下载了我两天时间,我已经保存在百度云上了,永久链接,有百度云会员下载会秒快

2019-09-04

hah555.csv

kaggle 房价预测第157名。测试数据直接结果,提交即可杀进前4%。

2019-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除