数据之美----雪球网股票组合分析

最新推荐文章于 2025-02-23 14:40:06 发布

谷震平

最新推荐文章于 2025-02-23 14:40:06 发布

阅读量7.6k

点赞数 2

分类专栏：爬虫系列文章标签：股票分析数据分析雪球网组合爬取爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/guzhenping/article/details/52802416

版权

爬虫系列专栏收录该内容

4 篇文章

订阅专栏

简介

因为工作需要，爬了几个大型的网站，练就一身爬取数据和分析数据的功夫。所以，在无聊的时候写了个爬取系统。主要功能是爬取雪球组合的数据，并进行分析，得出一些有价值有潜力的股票代码。实盘到没有测试，随便估计了一下，至少跟盘不会出现亏损。

先普及一下组合的概念：由雪球、微博等平台的投资主理人管理的股票持仓池。

技术架构

特点：简单可依赖

多服务器多核心异步架构实时爬取
机器学习、数理统计经典方法分析
6000+组合数据分析的结果秒出

以上有点吹。但是爬取的效果还是准确的。

分析方法

主要是基于统计方法。机器学习也会在后面跟上，获得更多有价值的信息。

我们分析了6000+组合的数据，对每个组合的具体持仓进行了分析。得出所有组合持仓的并集，这就是持仓最多的热门股票。当然已经排除停牌股。

同时，计算组合持仓的相同的股票的仓位大小，用总仓位除以持有该股的总组合数，得出平均权重。按大小，排除最佳重仓股。有的人会想，不少主理人喜欢重仓一只股票。所以，我们会特意标出仓位较重的组合名称及他们的个数，以供参考。不得不建议，想跟风最佳重仓股，请折半投资。比如平均仓位大小是90%，那么根据自己的仓位，投资20-45%左右是最佳的方案。

6000+ 组合并不是每一个组合都作为数据的权重出现。对于关停的、僵尸的、长线的组合，对其做分析貌似没有太多的价值。所以，我们分析以下2类组合：

总收益高于280%，月收益高于9%，每日收益震荡在-5% - 20%的组合，一月调仓3次以上
总收益为高于45%，月收益高于15%，每日收益震荡在-3% - 20%的组合，一月调仓5次以上

对外接口

之前在做Restful的一些应用，对于相关的技术还算了解。为了能让别人访问数据，我们做了接口，将分析、处理、加工完的数据开放。

只需要用户名即可，不需要密码，因为也没有打算建立用户账户体系。

展示网站

毕竟不是大多数人都会IT技术，所以没有办法。我只好又做了一个网站，专门用于展示分析数据。

不知道这个东西有没有人会看，但是希望能帮到大家。

团队简介

谷震平

目前在某一线互联网公司，任职数据仓库工程师，专注是数据采集、ETL。也是本文作者。笔者对这个项目的感情很特别。当初，大学辅修金融，以为自己毕业后能进投行工作，但是没人要。后来做了现在的工作。可能就是心里还有一丝丝抱怨与不甘，才做了现在的事情。希望，能帮助更多的人们，鼓励更多人追求梦想。

忆梦涟

一位美少女工程师，北邮研究生，专注NLP、机器学习。数据分析、科学计算的能力了得。

结语

写到这里，还有很多想说的没有说完。如果对我们的工作感兴趣，欢迎留言继续交流。

关注微信公众号，回复你所持有的股票中文名称，就会得到从6000多人的持仓数据中分析出来的该股情况！

现在只回复4项数据：

日期
平均持仓，该股在当天6000多人的平均持有情况，值在0 - 100%之间
总体持仓，该股在当天6000多人的全体持有情况，值大于0%
所在组合数，该股在当天6000多人的总计买入人数，值大于1

持仓的数据，请自己脑补%(百分号)，忘记单位可就不好了。

快快添加关注公众号—-谷震平的专栏吧，也可扫二维码下方二维码：
谷震平的专栏炒股

^-^

博客等级

码龄13年

58
原创

283
点赞

832
收藏

484
粉丝

关注

私信

热门文章

分类专栏

HTML5跨平台APP开发 5篇
机器学习 5篇
智能算法 3篇
资源收集 7篇
项目经验 14篇
幡然悔悟 2篇
Python 11篇
OOP 3篇
理论阐释 2篇
MongoDB 1篇
HTML5 6篇
Apache 1篇
跨平台APP 4篇
Git使用 1篇
3D打印
OCR 3篇
文本挖掘 1篇
Flask系列 1篇
站长系列 1篇
全沾 1篇
爬虫系列 4篇
Hadoop集群 4篇
大数据开发 4篇
认知区块链 2篇
Redash 1篇

展开全部收起

最新评论

Matlab篇----常用的回归分析Matlab命令（regress篇）
青梅听夜雨: 请问我的数据报错：警告: X 在机器精度内秩亏。这是什么原因？具体代码如下： [code=plain] %导入数据 y=[15.18 21.36 25.72 32.29 34.03 39.45 43.15 43.36 40.83 30.75 33.46 32.47 36.06 37.96 41.04 40.09 41.26 42.17 40.36 42.73 18.98 27.35 34.86 38.52 38.44 37.73 38.43 43.87 42.77 46.22]'; x1=[0 34 67 101 135 202 259 336 404 471 259 259 259 259 259 259 259 259 259 259 259 259 259 259 259 259 259 259 259 259]'; x2=[196 196 196 196 196 196 196 196 196 196 0 24 49 73 98 147 196 245 294 342 196 196 196 196 196 196 196 196 196 196]'; x3=[372 372 372 372 372 372 372 372 372 372 372 372 372 372 372 372 372 372 372 372 0 47 93 140 186 279 372 465 558 651]'; X=[ones(size(y)) x1 x2 x3 x1.*x2]; %开始分析 [b,bint,r,rint,stats] = regress(y,X); [/code]
Matlab篇----常用的回归分析Matlab命令（regress篇）
泫溯: 画图的时候是就不用管目标函数了吗
Matlab篇----常用的回归分析Matlab命令（regress篇）
qqqqqqq_s: 请问是否可以设置b里面的系数都是不为0的值
Matlab篇----常用的回归分析Matlab命令（regress篇）
MichaelZA: 没有大于1 啊，0.8几
Matlab篇----常用的回归分析Matlab命令（regress篇）
FBIxizz: p越小，说明回归效果越好

最新文章

目录

展开全部

收起

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。