![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 81
Mayumi_yumi
这个作者很懒,什么都没留下…
展开
-
动量策略momentum_selection
动量策略momentum_selection原创 2022-06-13 11:21:26 · 632 阅读 · 0 评论 -
Tushare Day7—— 第19章投资组合理论及拓展
投资组合的收益率与风险1 不同相关系数下投资组合标准差随投资比例变动的情况1.1 设置calc_mean函数为采用的投资组合方式1.2 以x/50为权重(其中x属于0到50)进行投资组合(其实就是0到1中间等距抽权重)1.3 计算不同相关系数的股票组合对应收益值1.4 不同相关系数均值和标准差关系图2 Markowitz模型实现2.1 获取各只股票日线行原创 2021-03-03 23:46:23 · 1289 阅读 · 15 评论 -
Tushare Day6—— 第18章 资产收益计算(嘻嘻嘻)
资产收益计算1 通过接口导入茅台股2019至今的数据2 获取收盘价列并错位合并求单期收益率2.1 获取收盘价列2.2 索引设置为时间列2.3 下移得到延迟一期收盘价2.4 将收盘价与延迟一期收盘价合并为表格2.5 计算延迟一期收益率3 计算多期收益3.1 将收盘价、延迟一期收盘价及收益率合并为一个表格3.2&n原创 2021-02-21 01:07:12 · 793 阅读 · 0 评论 -
Tushare Day5——超简单的策略实现
股票分析1 用tushare包获取某支股票的历史行情数据1.1 查询茅台酒的股票编码并获取数据1.2 只显示感兴趣的四列(开、收盘价,最高、最低价)2 输出该股票所有收盘比开盘上涨大于等于3%及以上的日期2.1 该股票所有收盘比开盘上涨大于等于3%的行2.2 该股票所有收盘比开盘上涨大于等于3%的日期2.3 该股票所有收盘比开盘上涨大于等于10%的行3&原创 2021-02-19 11:11:50 · 639 阅读 · 0 评论 -
Tushare Day4——导入IPO新股列表new_share并分析基金和盈利
IPO新股列表new_share1 从数据接口取出new_share(由于限制,分两次取再合并)1.1 20000101到201501011.2 20150101到202101011.3 将二者合并2 分析筹集资金2.1 选出募集资金前20的公司2.2 按基金数额画频数直方图2.3 小于80的基金按数额画频数直方图2.4原创 2021-02-05 10:59:05 · 409 阅读 · 0 评论 -
Tushare Day3——了解stock_company并与stock_basic数据规模进行比较
了解stock_company1 stock_company的基本信息2 由于导入限制,把股票分成上交所和深交所分别导入2.1 设置fields为交易所以外的信息2.2 导入股票信息2.3 分别取出上交所和深交所的信息并以dataframe的形式保存2.4 将上交所和深交所的信息纵向合并并储存2.5 查看共有有多少支不重复的股票2.6 &nbs原创 2021-02-01 18:56:52 · 1983 阅读 · 0 评论 -
Tushare Day2——了解stock_basic数据并根据行业和地区进行统计
了解stock_basic数据1 stock_basic基础信息2 导入包和stock_basic数据、查看基本信息3 根据行业列进行统计3.1 1.先把不同行业列举出来,看一下一共有多少种行业3.2 2.统计每个行业分别有多少家公司3.3 3.把行业从array的二维数组形式变成list形式3.4 4.把行业从list形式转换成文本形式3.5 原创 2021-01-30 22:57:42 · 2009 阅读 · 0 评论 -
Untitled18
任务说明学习主题:作者关联(数据建模任务),对论⽂作者关系进⾏建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论⽂作者知识图谱、图关系挖掘数据处理步骤将作者列表进⾏处理,并完成统计。具体步骤如下:将论⽂第⼀作者与其他作者(论⽂⾮第⼀作者)构建图;使⽤图算法统计图中作者与其他作者的联系;社交⽹络分析图是复杂⽹络研究中的⼀个重要概念。 Graph是⽤点和线来刻画离散事物集合中的每对事物间以某种⽅式相联系的数学模型。 Graph在现实世界中随处可⻅,如交通原创 2021-01-25 13:23:48 · 110 阅读 · 0 评论 -
论文04
import seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式,匹配字符串的模式import requests #⽤于⽹络连接,发送⽹络请求,使⽤域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图⼯具data = [] #初原创 2021-01-23 00:09:04 · 232 阅读 · 3 评论 -
论文分析 03
# 导⼊所需的packageimport seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式,匹配字符串的模式import requests #⽤于⽹络连接,发送⽹络请求,使⽤域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图⼯原创 2021-01-20 13:27:33 · 91 阅读 · 0 评论 -
论文数据分析02
论文作者统计1 任务说明2 数据处理步骤3 字符串处理4 具体代码实现以及讲解4.1 数据读取4.2 数据统计任务说明任务主题:论⽂作者统计,统计所有论⽂作者出现频率Top10的姓名;任务内容:论⽂作者的统计、使⽤ Pandas 读取数据并使⽤字符串操作;任务成果:学习 Pandas 的字符串操作;数据处理步骤在原始arxiv数据集中论⽂作者 authors 字段原创 2021-01-16 22:03:09 · 140 阅读 · 0 评论 -
数据分析-学术前沿趋势分析-论⽂数据统计
论文数据统计1 数据集简介2 arxiv论文类别介绍3 具体代码实现以及讲解3.1 导入包并读取原始数据3.2 数据预处理3.2.1 粗略统计论文的种类信息3.2.2 判断共出现多少独立种类3.2.2.1 代码解释4 数据分析及可视化4.1 查看所有⼤类的paper数量分布4.1.1&nb原创 2021-01-13 23:38:40 · 1910 阅读 · 0 评论 -
主成分分析——建模模拟前夜
目录PCA简单案例导入库数据构建及预览计算所有特征的方差贡献率计算降维后方差贡献率降维后数据可视化基于鸢尾花数据的主成分分析导入库导入数据查看数据调用PCA函数做出分类散点图代码解释两种方法方法一:重复写三次方法二:for循环探索降维后的数据输出降维后的可解释性方差(信息量)输出降维后的方差贡献率(信息量占比)降维后的总信息量占比选择最好的n_components(特征数)累积可解释方差贡献率曲线最大似然估计自选超参数按信息量占比选超参数最后需要强调一下PCA.components的另一用法PCA简单案例原创 2020-09-14 23:29:07 · 806 阅读 · 0 评论 -
数据分析&机器学习——泰坦尼克生存预测
目录获取库及数据预处理缺失值填充编码分类变量模型搭建切割训练集与测试集随机森林输出预测结果模型评估交叉验证混淆矩阵获取库及数据import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Image%matplotlib inlineplt.rcParams['font.sans-serif'] = ['SimHei'原创 2020-08-28 23:59:51 · 1033 阅读 · 0 评论 -
数据分析——可视化
目录导入数据数据可视化可视化展示泰坦尼克号数据集中男女生存人数分布情况(柱状图)男女死亡人数和男女生存人数可视化柱状图结合可视化展示泰坦尼克号数据集中男女中生存人与死亡 人数的比例图(柱状图)可视化展示泰坦尼克号数据集中不同票价的人生存和 死亡人数分布情况(折线图,横轴不同票价,纵轴存活人数)可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况(柱状图)可视化展示泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况可视化展示泰坦尼克号数据集中不同仓位等级的人年龄分布情况导入数据导入num原创 2020-08-25 13:08:56 · 365 阅读 · 0 评论 -
数据分析——数据重构
目录数据的合并载入四个文件和train表格观察关系数据的拼接换一种角度看数据数据聚合与运算数据的合并import numpy as npimport pandas as pd载入四个文件和train表格观察关系text_left_up = pd.read_csv("C:/Users/Administrator/LC python/datawhale/data analysis/unit 2/data/train-left-up.csv")text_left_down = pd.read_cs原创 2020-08-23 23:17:02 · 392 阅读 · 0 评论 -
数据分析——数据清洗及特征处理 真的好困开始已经十点了
(草草写文章的一天,因为实在太困了)目录1. 导入库和数据2. 数据清洗2.1 缺失值的观察与处理缺失值观察缺失值处理2.2 重复值的观察与处理查看重复值去掉重复项2.3 特征值处理对年龄分箱(离散化)处理2.4 文本变量名编码查看文本变量名及种类将类别文本转化为编码2.5 特征提取1. 导入库和数据先导入numpy、pandas包和数据import numpy as npimport pandas as pddf=pd.read_csv('C:/Users/Administrator/LC原创 2020-08-21 23:12:59 · 491 阅读 · 0 评论 -
数据分析——探索性分析
由Datawhale组织的数据分析学习分为三个章节:**1.数据加载,Pandas基础与探索性数据分析;**2.数据清洗及特征处理,数据重构,数据可视化;3.模型搭建,模型评估。本篇文章为数据分析第一章的学习笔记,以备复习参考。原创 2020-08-18 17:33:08 · 592 阅读 · 2 评论