![](https://img-blog.csdnimg.cn/20190703171110260.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
文本分析下的量化金融
利用tushare.pro提供的文本数据,来分析各种投资环境。借助nlp技术,有效构建情绪因子,来衡量是否投资。
leofionn
梦想还是要有的。万一呢?
展开
-
利用py2neo建立金融知识图谱(1)
数据来源选择tushare的公募基金管理人接口,获取所需要的数据import tushare as tsimport pandas as pdimport timetoken = ''ts.set_token(token)pro = ts.pro_api()df = pro.fund_company()# df.to_csv("jijin.csv",encoding="utf_8...原创 2020-02-28 22:20:14 · 1116 阅读 · 0 评论 -
金融文本时间提取
浏览github发现一个有趣的库,:https://github.com/fighting41love/funNLP在里面发现了一个非常非常有用的库:https://github.com/fighting41love/cocoNLP>>> from cocoNLP.extractor import extractor>>> ex = extractor()...原创 2019-10-23 16:46:50 · 317 阅读 · 0 评论 -
kesci任务——公开新闻预测A股行业板块动向,jieba分词尝试
import jiebaimport jieba.analyseimport codecsimport pandas as pdimport numpy as nprows=pd.read_csv('/home/kesci/input/stockpredic_15501/20190506_NEWS.csv',header=0,encoding='utf-8',dtype=str)...原创 2019-05-10 11:21:40 · 484 阅读 · 0 评论 -
金融时间序列处理——(tushare新闻数据合并)添加星期
ts.set_token('')import datetimestart='20160601'end='20170101'list1 = []datestart=datetime.datetime.strptime(start,'%Y%m%d')dateend=datetime.datetime.strptime(end,'%Y%m%d')while datestart<...原创 2019-05-24 14:49:39 · 908 阅读 · 0 评论 -
用python调度hanlp
下载jpype1:https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype安装对应版本:pip install xxxxxx(对应文件)注意: pip install jpype1报错下载安装hanlp:官方文档:github:https://github.com/hankcs/HanLP下载地址:https://github.com/hankc...原创 2019-07-04 14:08:51 · 2117 阅读 · 1 评论 -
nltk扩展包下载慢解决办法
下载nltk非常简单:pip install nltk下载nltk扩展包:import nltknltk.download()之后会出现一个NLTK Downloader对话框然后点击下载,你会发现下载很慢,而且很容易出错.。解决办法:1.去github下载:https://github.com/nltk/nltk_data 里面的packages就是我们想要找到的nltk_d...原创 2019-07-04 13:19:45 · 9482 阅读 · 20 评论 -
基于 svm 的金融咨询情感分析
详细代码与代码说明可见我的 github:https://github.com/ouprince/svm处理流程:(1)金融咨询处理1.利用 7 万多条利好/利空语料(已经标注好的,分为 1 正性,-1 负性两类),首先采用 B-gram 卡方差提取特征词汇2.使用卡方提取的特征词为每一篇咨询建立向量表示模型3.使用向量进行 svm 分割,训练语料 80%,测试语料 20%,并...转载 2018-07-31 18:30:55 · 713 阅读 · 0 评论 -
利用500万条微博语料对微博评论进行情感分析
最近身边的人都在谈论一件事:10月8日中午的一条微博,引发了一场微博的轩然大波。导致微博瘫痪的原因是全球超人气偶像明星鹿晗发了一条“大家好,给大家介绍一下,这是我女朋友@关晓彤”。这条微博并@关晓彤。数据分析,可以在这里自取!截止目前,鹿晗的这条微博已经被转发1024887,回复2649409,点赞5173532。关晓彤的这条微博转发67652,回复873532,点赞:2260400。...转载 2018-07-31 17:57:03 · 4729 阅读 · 0 评论 -
新闻文本分类(朴素贝叶斯)
读取20类新闻文本的数据细节# 从sklearn.datasets里导入新闻数据抓取器fetch_20newsgroupfrom sklearn.datasets import fetch_20newsgroups# 与之前预存的数据不同,fetch_20newsgroup需要即时从互联网下载数据news = fetch_20newsgroups(subset='all')# 查验数...原创 2018-07-28 13:06:18 · 2641 阅读 · 0 评论 -
python读取txt, jieba分词并统计词频后输出结果到Excel和txt文档
12345with open('1.txt', 'r') as fp: lines = fp.readlines() res = [line.split()[1][9:] for line in lines] with open('out.txt', 'w+') as out: out.write('\n'.join(res))#encoding=utf-8impo...原创 2018-05-22 20:47:07 · 13116 阅读 · 2 评论 -
python jieba分词模块的基本用法
安装jiebapip install jieba简单用法结巴分词分为三种模式:精确模式(默认)、全模式和搜索引擎模式,下面对这三种模式分别举例介绍:精确模式import jiebas = u'我想和女朋友一起去北京故宫博物院参观和闲逛。'cut = jieba.cut(s)print '【Output】'print cutprint ','.join(cut)【Output】<g...原创 2018-05-22 12:40:04 · 297 阅读 · 0 评论 -
4种预测市场表现的方法
原文:https://www.investopedia.com/articles/07/mean_reversion_martingale.asp 对于任何投资者而言,有两个价格是至关重要的:他或她拥有或计划拥有的投资的当前价格及其未来的售价。尽管如此,投资者仍在不断审查过去的定价历史,并利用它来影响他们未来的投资决策。一些投资者不会购买涨幅过大的股票或指数,因为他们认为应该会出现调整,而...转载 2019-01-03 23:23:29 · 1603 阅读 · 0 评论 -
量化交易资源网站
私募基金、CTA、python量化交易科技版块:http://www.pythonpai.com免费午餐:https://www.investopedia.com/terms/f/free-lunch.asp雪球:https://xueqiu.com/FT中文网:http://www.ftchinese.com/路透:www.reuters.com金融界:http://www....原创 2018-12-15 18:15:55 · 673 阅读 · 0 评论 -
机器学习在股票交易中难点分析
数据分布小样本数据无法量化的数据数据复杂性马尔可否决策过程的部分可观性与推荐系统的相似之处最后的想法金融市场一直是最早使用机器学习的领域之一。自 20 世纪 80 年代以来,人们一直在使用机器学习(或者说是人工智能技术)来发现市场中的一些变化模式,特别是股票,期货和外汇市场。尽管机器学习在过去预测市场趋势结果方面取得了巨大成功,但是最近发展起来的深度学习技术并没有很显著的有助于金融市...转载 2018-10-10 13:02:50 · 863 阅读 · 0 评论 -
量化交易研究———高级篇(4)股票知识、程序小结
个人不是很懂股票,我一般选择实事、言论等等的分析中选择购买股票。但是这次量化交易比赛并不能给我很好的平台支持,所以开始研究基本面指标、各种财务因子和技术因子。先放成果图: 自我感觉非常好。策略收益在6个月获得11.53%的成绩,并且将回撤控制在4%以内。并且在股市低迷的情况下,跑赢所有盘。个人认为:1、选股需要思考好参考的因子。对因子的重要性进行分析,将自己认为好的因子划分...原创 2018-05-21 10:54:12 · 2680 阅读 · 0 评论 -
量化交易研究———高级篇(3)总体代码(不完整)
from datetime import timedelta, dateimport pandas as pddef initialize(account): # set_commission(PerTrade(cost=0.0003, min_trade_cost=5)) # set_slippage(PriceRelatedSlippage()) account.select...原创 2018-05-21 10:31:03 · 983 阅读 · 0 评论 -
量化交易研究———高级篇(2)MACD检测实现
import talibimport numpy as npimport pandas as pdsecurities=['601006.SH','601008.SH','601155.SH','600519.SH','300136.SZ','600741.SH']count = 0for stock in securities: values = get_price(stock, None...原创 2018-05-21 10:30:45 · 2551 阅读 · 0 评论 -
量化交易研究———基础篇(5)除去停牌和ST
stock = get_concept_stocks('301636',date)#除去停牌和STprice=get_price(stock, None, date, '1d', ['is_paused', 'is_st'], False, None, 1, is_panel=1)stopstk=price['is_paused'].iloc[-1]ststk=price['is_st'].ilo...原创 2018-05-17 14:54:26 · 3847 阅读 · 0 评论 -
用IT技术玩金融系列文章
用IT技术玩金融系列文章本文转载至:http://blog.fens.me/series-it-finance/用IT技术玩金融系列文章,将介绍如何使用IT技术,处理金融大数据。在互联网混迹多年,已经熟练掌握一些IT技术。单纯地在互联网做开发,总觉得使劲的方式不对。要想靠技术养活自己,就要把技术变现。通过“跨界”可以寻找新的机会,创造技术的壁垒。金融是离钱最近的市场,也是变现的好渠道!今天就开始踏...转载 2018-05-14 08:24:36 · 197 阅读 · 0 评论 -
量化交易研究———基础篇(4)采用均线控制购买股票和持有股票
一般谨慎的买股方法,都是k线在20均线上方,游走在20日均线下方一般不主张炒,道氏理论告诉我们20日线是大浪,5日线是中浪,日K线是小浪。可以做这样一个比喻,k线就如同船只一样,漂泊在20线大浪之上,如果在下,则翻船,预示着股价的下跌开始。 这种买入法是涨停板(或大阳线)的买法,学习波浪,就应当先学会波浪的形态分析(主要是分解组合方法),时间分析及空间价格分析,平时主要分析大浪(比如...原创 2018-05-14 07:46:44 · 2759 阅读 · 0 评论 -
量化交易研究———高级篇(1)实现代码(重要部分。)
选股策略1、 设置所有深港通股票为股票池2、 获取深港通股票的流通市值0—70亿3、 获取深港通股票的净资产收益率(ROE)从小到大排列,取排名前100只股票4、 获取深港通股票的每股收益(EPS)从小到大排列,取排名前100只股票5、 选取满足以上条件的前30只股票def tradestocklist(stock,date): #流通市值、净资产收益率、每股收益数据获取 q = qu...原创 2018-05-21 10:29:24 · 2077 阅读 · 0 评论 -
量化交易研究———基础篇(3)借助talib库来直接获得MACD、动量、rsi、移动均线
talib库有超多现成的方法,不用辛辛苦苦造轮子。上面几篇博客写了MACD、动量、rsi、移动均线的方法,但用起来还是不爽。刚好talib都有这些函数。比较懒,就直接放代码吧先看10日的移动均线:import tushare as tsimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npimport tal...原创 2018-05-12 21:14:19 · 4810 阅读 · 5 评论 -
量化交易研究———基础篇(1)技术指标KDJ说明
环境:Anaconda3主要研究包:TuShare、Numpy、Pandas基础研究方向: 技术指标:KDJKDJ概念 rsv =(收盘价– n日内最低价)/(n日内最高价– n日内最低价)×100 K = rsv的m天移动平均值 D = K的m1天的移动平均值 J = 3K - 2D rsv:未成熟随机值KDJ的计算比较复杂,首先要计算周期(n日、n周等)的...原创 2018-05-04 17:11:58 · 1420 阅读 · 0 评论 -
量化交易研究———数据获取
关于开发工具的选择,经过一些对比研究后,决定使用Anaconda ,用anaconda集成的ipython做工作台,做一些分析和小节程序调试的工作。Anaconda是一个用于科学计算的Python发行版,支持Linux,Mac,Windows系统,提供了包管理与环境管理的功能,可以很方便地解决多版本python并存,切换以及各种第三方包安装问题。 Anaconda利用工具/命令conda来进行包和...原创 2018-04-17 16:57:40 · 2562 阅读 · 0 评论 -
量化交易研究———基础篇(2)投资策略模版
一、本杰明.格雷厄姆企业主投资法介绍 本杰明.格雷厄姆(1894—1976),从事投资大致42 年,主要投资经历为1923至1956 年,主要投资美国股票、债券等。其创办的葛拉汉.纽曼公司在1941 至1960期间,在20 年中累积收益率达到4425%,平均年化收益率为21%。 《聪明的投资者》中格雷厄姆企业主投资策略的原始描述: 1、财务状况:a.流动资产要大于1.5 倍的流动负债,并且...原创 2018-05-05 15:10:53 · 2879 阅读 · 0 评论 -
简单构建新闻数据对股票的情绪因子(大盘因子)
简单思路描述:根据前一天的新闻数据,预测后一天大盘涨跌,涨为1,跌为0.构建数据集:import tushare as tsts.set_token(' ')#ts.set_token('your token here')pro = ts.pro_api()df1 = pro.cctv_news(date='20190916')#0df2 = pro.cctv_news(date='...原创 2019-10-06 10:32:54 · 1915 阅读 · 0 评论