- 博客(34)
- 收藏
- 关注
原创 Tushare Day7—— 第19章投资组合理论及拓展
投资组合的收益率与风险1 不同相关系数下投资组合标准差随投资比例变动的情况1.1 设置calc_mean函数为采用的投资组合方式1.2 以x/50为权重(其中x属于0到50)进行投资组合(其实就是0到1中间等距抽权重)1.3 计算不同相关系数的股票组合对应收益值1.4 不同相关系数均值和标准差关系图2 Markowitz模型实现2.1 获取各只股票日线行
2021-03-03 23:46:23 1350 15
原创 Tushare Day6—— 第18章 资产收益计算(嘻嘻嘻)
资产收益计算1 通过接口导入茅台股2019至今的数据2 获取收盘价列并错位合并求单期收益率2.1 获取收盘价列2.2 索引设置为时间列2.3 下移得到延迟一期收盘价2.4 将收盘价与延迟一期收盘价合并为表格2.5 计算延迟一期收益率3 计算多期收益3.1 将收盘价、延迟一期收盘价及收益率合并为一个表格3.2&n
2021-02-21 01:07:12 820
原创 Tushare Day5——超简单的策略实现
股票分析1 用tushare包获取某支股票的历史行情数据1.1 查询茅台酒的股票编码并获取数据1.2 只显示感兴趣的四列(开、收盘价,最高、最低价)2 输出该股票所有收盘比开盘上涨大于等于3%及以上的日期2.1 该股票所有收盘比开盘上涨大于等于3%的行2.2 该股票所有收盘比开盘上涨大于等于3%的日期2.3 该股票所有收盘比开盘上涨大于等于10%的行3&
2021-02-19 11:11:50 674
原创 Tushare Day4——导入IPO新股列表new_share并分析基金和盈利
IPO新股列表new_share1 从数据接口取出new_share(由于限制,分两次取再合并)1.1 20000101到201501011.2 20150101到202101011.3 将二者合并2 分析筹集资金2.1 选出募集资金前20的公司2.2 按基金数额画频数直方图2.3 小于80的基金按数额画频数直方图2.4
2021-02-05 10:59:05 429
原创 Tushare Day3——了解stock_company并与stock_basic数据规模进行比较
了解stock_company1 stock_company的基本信息2 由于导入限制,把股票分成上交所和深交所分别导入2.1 设置fields为交易所以外的信息2.2 导入股票信息2.3 分别取出上交所和深交所的信息并以dataframe的形式保存2.4 将上交所和深交所的信息纵向合并并储存2.5 查看共有有多少支不重复的股票2.6 &nbs
2021-02-01 18:56:52 2025
原创 Tushare Day2——了解stock_basic数据并根据行业和地区进行统计
了解stock_basic数据1 stock_basic基础信息2 导入包和stock_basic数据、查看基本信息3 根据行业列进行统计3.1 1.先把不同行业列举出来,看一下一共有多少种行业3.2 2.统计每个行业分别有多少家公司3.3 3.把行业从array的二维数组形式变成list形式3.4 4.把行业从list形式转换成文本形式3.5 
2021-01-30 22:57:42 2061
原创 Tushare Day1——通过Tushare读取数据并存入MySQL
通过Tushare读取数据并存入MySQL1 了解Tushare2 下载sqlalchemy和pymysql包2.1 sqlalchemy2.2 pymysql3 操作实例3.1 导入包3.2 从接口获取数据3.3 将数据储存进mysql中3.4 了解stock_basic数据任务:从api(应用程序编
2021-01-29 21:38:15 1505
原创 Untitled18
任务说明学习主题:作者关联(数据建模任务),对论⽂作者关系进⾏建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论⽂作者知识图谱、图关系挖掘数据处理步骤将作者列表进⾏处理,并完成统计。具体步骤如下:将论⽂第⼀作者与其他作者(论⽂⾮第⼀作者)构建图;使⽤图算法统计图中作者与其他作者的联系;社交⽹络分析图是复杂⽹络研究中的⼀个重要概念。 Graph是⽤点和线来刻画离散事物集合中的每对事物间以某种⽅式相联系的数学模型。 Graph在现实世界中随处可⻅,如交通
2021-01-25 13:23:48 118
原创 论文04
import seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式,匹配字符串的模式import requests #⽤于⽹络连接,发送⽹络请求,使⽤域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图⼯具data = [] #初
2021-01-23 00:09:04 245 3
原创 论文分析 03
# 导⼊所需的packageimport seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式,匹配字符串的模式import requests #⽤于⽹络连接,发送⽹络请求,使⽤域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图⼯
2021-01-20 13:27:33 99
原创 论文数据分析02
论文作者统计1 任务说明2 数据处理步骤3 字符串处理4 具体代码实现以及讲解4.1 数据读取4.2 数据统计任务说明任务主题:论⽂作者统计,统计所有论⽂作者出现频率Top10的姓名;任务内容:论⽂作者的统计、使⽤ Pandas 读取数据并使⽤字符串操作;任务成果:学习 Pandas 的字符串操作;数据处理步骤在原始arxiv数据集中论⽂作者 authors 字段
2021-01-16 22:03:09 148
原创 数据分析-学术前沿趋势分析-论⽂数据统计
论文数据统计1 数据集简介2 arxiv论文类别介绍3 具体代码实现以及讲解3.1 导入包并读取原始数据3.2 数据预处理3.2.1 粗略统计论文的种类信息3.2.2 判断共出现多少独立种类3.2.2.1 代码解释4 数据分析及可视化4.1 查看所有⼤类的paper数量分布4.1.1&nb
2021-01-13 23:38:40 1964
原创 SQL复杂一点的查询
复杂一点的查询1. 视图1.2 什么是视图1.3 视图与表有什么区别1.4 为什么会存在视图1.5 如何创建视图1. 视图1.2 什么是视图视图是⼀个虚拟的表,不同于直接操作数据表,视图是依据SELECT语句来创建的(会在下⾯具体介绍),所以操作视图时会根据创建视图的SELECT语句⽣成⼀张虚拟表,然后在这张虚拟表上做SQL操作。1.3 视图与表有什么区别区别在于“是否保存了实际的数据”。所以视图并不是数据库真实存储的数据表,它可以看作是⼀个窗⼝,通过这个窗⼝我们可以看到数据库表中真实存在的
2020-12-20 23:36:36 199
原创 pandas(2)
Pandas基础1 文件的读取和写入1.1 文件的读取1.2 数据写入(数据保存为文件)2 基本数据结构2.1 Series2.2 DataFrame3 常用基本函数3.1 汇总函数3.2 特征统计函数3.3 唯一值函数3.4 替换函数3.4.1  
2020-12-19 21:52:18 428 1
原创 SQL查询和排序代码
use shop;CREATE TABLE product(product_id CHAR(4) NOT NULL, product_name VARCHAR(100) NOT NULL, product_type VARCHAR(32) NOT NULL, sale_price INTEGER , purchase_price INTEGER , regist_date DATE , PRIMARY KEY (product_id)); ALTER TABLE product AD
2020-12-17 22:59:51 316
原创 SQL基础查询与排序
目录1. SELECT语句基础1.1 从表中选取数据1.2 从表中选取符合条件的数据1.3 相关法则(设定别名、删除重复行)2. 算术运算符和比较运算符2.1 算术运算符2.2 比较运算符2.3 常用法则3. 逻辑运算符3.1 NOT运算符3.2 AND运算符和OR运算符3.3 真值表4. 对表进行聚合查询4.1 聚合函数4.2 使用聚合函数删除重复值4.3 常用法则5. 对表进行分组5.1 GROUP BY语句6. 为聚合结果指定条件6.1 ⽤HAVING得到特定分组6.2 HAVING特点7. 对查询结
2020-12-17 22:57:29 411
原创 pandas基础1
预备阶段1 Python 基础1.1 语法糖1.1.1 列表推导式1.1.2 条件赋值1.2 匿名函数与 map 方法1.3 zip 对象与 enumerate 方法1.3.1 zip打包1.3.2 enumerate打包1.3.3 解压操作( * 操作符和 zip 联合使用):2 Num
2020-12-16 22:56:48 137
原创 数据库 初步
目录1. 初识数据库1.1 DB和DBMS的种类1.2 RDBMS常见的系统结构2. 初识SQL2.1 标准术语2.2 SQL语句类别2.3 SQL的基本书写规则2.4 创建数据库 CREATE DATABASE2.5 表的创建 CREATE TABLE2.5.1 命名规则2.5.2 数据类型的指定2.5.3 约束的设置2.5.4 表的删除和更新2.5.4.1 删除表2.5.4.2 更新表2.5.4.2.1 用ALTER TABLE更新表(增删列)2.5.4.2.2 用TRUNCATE清空表2.5.4.2.
2020-12-15 20:58:34 125 2
原创 大作业 numpy下
大作业1 导入鸢尾属植物数据集,保持文本不变。2 求出鸢尾属植物萼片长度的平均值、中位数和标准差(第1列,sepallength)3 3. 创建一种标准化形式的鸢尾属植物萼片长度,其值正好介于0和1之间,这样最小值为0,最大值为1(第1列,sepallength)。4 找到鸢尾属植物萼片长度的第5、10和第95百分位数(第1列,sepallength)。5 把iris_data数据集中的20个随机
2020-12-01 23:35:53 475
原创 线性代数(关于矩阵的运算及各种分解的python实现)
线性代数1 矩阵和向量积2 矩阵特征值与特征向量3 矩阵分解3.1 奇异值分解3.2 QR分解3.3 Cholesky分解4 范数和其它数字4.1 矩阵的范数4.2 方阵的行列式4.3 矩阵的秩4.4 矩阵的迹5 解方程和逆矩阵5.1
2020-11-29 23:16:24 1606
原创 描述统计的python实现
统计相关1 次序统计1.1 计算最小值1.2 计算最大值1.3 计算极差1.4 计算分位数2 均值与方差2.1 计算中位数2.2 计算平均值2.3 计算加权平均值2.4 计算方差2.5 计算标准差3 相关3.1 计算相关系数
2020-11-27 20:49:52 193
原创 随机抽样的python实现
目录1 随机抽样1.1 离散型随机变量1.1.1 二项分布1.1.2 泊松分布1.1.3 超几何分布1.2 连续型随机变量1.2.1 均匀分布1.2.2 正态分布1.2.3 指数分布1.3 其它随机函数1.3.1 随机从序列中获取元素1.3.2
2020-11-25 23:35:52 1773
原创 输入和输出(二进制文件、文本文件、文本格式选项)
输入和输出1 numpy二进制文件1.1 numpy.save()1.2 nuumpy.load()1.3 numpy.savez()2 文本文件2.1 numpy.savetxt()2.2 numpy.loadtxt()2.3 numpy.genfromtxt()3 文本格式选项3.1
2020-11-23 21:53:50 758
原创 徐老师python课——个人难点整理(最后其实变成了抄笔记)
目录第一章视频二功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入第一章视频二python中os.path.isdir()和os.path.isfile()的正确用法(其中包括os.listdir(),os.path.join
2020-10-19 10:16:03 2477
原创 主成分分析——建模模拟前夜
目录PCA简单案例导入库数据构建及预览计算所有特征的方差贡献率计算降维后方差贡献率降维后数据可视化基于鸢尾花数据的主成分分析导入库导入数据查看数据调用PCA函数做出分类散点图代码解释两种方法方法一:重复写三次方法二:for循环探索降维后的数据输出降维后的可解释性方差(信息量)输出降维后的方差贡献率(信息量占比)降维后的总信息量占比选择最好的n_components(特征数)累积可解释方差贡献率曲线最大似然估计自选超参数按信息量占比选超参数最后需要强调一下PCA.components的另一用法PCA简单案例
2020-09-14 23:29:07 818
原创 数据分析&机器学习——泰坦尼克生存预测
目录获取库及数据预处理缺失值填充编码分类变量模型搭建切割训练集与测试集随机森林输出预测结果模型评估交叉验证混淆矩阵获取库及数据import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Image%matplotlib inlineplt.rcParams['font.sans-serif'] = ['SimHei'
2020-08-28 23:59:51 1049
原创 机器学习——SVM支持向量机 原理后面补回来 毕竟今天是七夕嘛
这里写目录标题原理Demo库函数导入构建数据集并进行模型训练计算模型参数模型预测模型可视化支持向量机软间隔超平面原理(后续补充)Demo库函数导入## 基础函数库import numpy as np ## 导入画图库import matplotlib.pyplot as pltimport seaborn as sns## 导入逻辑回归模型函数from sklearn import svm构建数据集并进行模型训练##Demo演示LogisticRegression分类## 构造
2020-08-25 15:10:40 175
原创 数据分析——可视化
目录导入数据数据可视化可视化展示泰坦尼克号数据集中男女生存人数分布情况(柱状图)男女死亡人数和男女生存人数可视化柱状图结合可视化展示泰坦尼克号数据集中男女中生存人与死亡 人数的比例图(柱状图)可视化展示泰坦尼克号数据集中不同票价的人生存和 死亡人数分布情况(折线图,横轴不同票价,纵轴存活人数)可视化展示泰坦尼克号数据集中不同仓位等级的人生存和死亡人员的分布情况(柱状图)可视化展示泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况可视化展示泰坦尼克号数据集中不同仓位等级的人年龄分布情况导入数据导入num
2020-08-25 13:08:56 389
原创 机器学习-决策树 还没写原理后面补一补
目录决策树原理二级目录三级目录Demo实现构造数据集模型可视化决策树可视化模型预测基于企鹅数据集的决策树实战导入库和数据函数库导入数据集导入二级目录三级目录决策树原理二级目录三级目录Demo实现构造数据集#构造数据集x_features=np.array([[-1,-2],[-2,-2,],[-3,-2],[1,3],[2,1],[3,2]])y_label=np.array([0,1,0,1,0,1])#调用逻辑回归模型tree_clf=DecisionTreeClassifier(
2020-08-23 23:17:45 229
原创 数据分析——数据重构
目录数据的合并载入四个文件和train表格观察关系数据的拼接换一种角度看数据数据聚合与运算数据的合并import numpy as npimport pandas as pd载入四个文件和train表格观察关系text_left_up = pd.read_csv("C:/Users/Administrator/LC python/datawhale/data analysis/unit 2/data/train-left-up.csv")text_left_down = pd.read_cs
2020-08-23 23:17:02 406
原创 数据分析——数据清洗及特征处理 真的好困开始已经十点了
(草草写文章的一天,因为实在太困了)目录1. 导入库和数据2. 数据清洗2.1 缺失值的观察与处理缺失值观察缺失值处理2.2 重复值的观察与处理查看重复值去掉重复项2.3 特征值处理对年龄分箱(离散化)处理2.4 文本变量名编码查看文本变量名及种类将类别文本转化为编码2.5 特征提取1. 导入库和数据先导入numpy、pandas包和数据import numpy as npimport pandas as pddf=pd.read_csv('C:/Users/Administrator/LC
2020-08-21 23:12:59 531
原创 机器学习——逻辑回归 原理真的用心了
逻辑回归作为一种基础的分类模型,在机器学习中占据着不可替代的位置。回归是用曲线拟合数据,逻辑回归并非一种回归运算,而是分类算法。目的是使用现有样本(已分类)训练得到一些参数θ,使得θ与x的线性组合z映射到sigmoid函数上,可以使这些样本出现的概率L(θ)极大化,也就是极大似然函数取最大值(此处也可考虑极大似然函数加一个负号转化成损失函数,使损失函数极小化也可达到同样目的)。目录一级目录二级目录三级目录一级目录二级目录三级目录...
2020-08-20 16:00:07 414
原创 数据分析——探索性分析
由Datawhale组织的数据分析学习分为三个章节:**1.数据加载,Pandas基础与探索性数据分析;**2.数据清洗及特征处理,数据重构,数据可视化;3.模型搭建,模型评估。本篇文章为数据分析第一章的学习笔记,以备复习参考。
2020-08-18 17:33:08 604 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人