金融大数据
或许快要下雪了吧
这个作者很懒,什么都没留下…
展开
-
使用sklearn做特征工程
使用sklearn做特征工程目录1 特征工程是什么?2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与归一化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾3 特征选择 3.1 Filter 3.1.1 方差选择法 3.1.2 相关系数法 3.1.3 卡方检验 3.1.4 互信息法 3.2 Wrapper原创 2020-07-15 04:19:43 · 273 阅读 · 0 评论 -
特征工程-特征选择、特征表达、特征预处理
特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。一、特征选择1. 特征的来源在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部分来分别讨论。选择合适的特征 我们首先看当业务已经整理好各原创 2020-07-15 02:30:42 · 520 阅读 · 0 评论 -
数据分析——数据清洗
数据分析前的准备工作包括:首先是要明确问题以及分析的方向,其次数据的收集,然后是数据的清洗,最后是数据的分析工作。整个过程最错综复杂的就是数据清洗工作,本次尝试着把之前遇到的数据清洗的一些步骤和方法做一个总结,并且随着以后的工作和学习不断完善。1、数据预处理当我们导入一份数据后,我们需要对数据的大概有个了解。利用描述性统计可以很方便的对数据有个大致的了解,数据包括数值类型和非数值类型(一般是Object),通过对count max min mean std 等以及 唯一值 出现次数最多的(top),频率原创 2020-07-15 02:16:22 · 705 阅读 · 0 评论 -
aws 未完成sagemaker ner
https://aws.amazon.com/cn/blogs/china/use-amazon-sagemaker-to-run-chinese-named-entity-recognition-based-on-tensorflow/?nc1=b_rphttps://www.bilibili.com/video/BV1f5411s7Yz?from=search&seid=16029321477206824532可以直接用他的notebook右上角创建实例环境和notebook 一样原创 2020-06-03 11:37:14 · 238 阅读 · 0 评论 -
金融知识图谱
一、简介NLP:1.word level:序列标注任务(上图d),分词、词性标注、命名实体识别都属于序列标注任务,所谓序列标注就是对一个序列的每个部分(可以是词,可以是字)进行分类,上图d就是一个实体识别任务(我们后续会详细讲到),实际上我感觉语音识别如果是在帧层面上进行音素分类的话,也可以作为一种序列标注任务。 2.sentence level :我认为只要是在句子层面分类的任务都可以归结为该类,如文本分类,情感识别,关系抽取,语音情感识别等。在这里注意关系抽取是知识图谱中将文本数据进行原创 2020-06-02 01:29:39 · 728 阅读 · 0 评论 -
0315 财经爬虫实战
1.新浪财经股票实时数据爬取实战from selenium import webdriverchrome_options = webdriver.ChromeOptions()chrome_options.add_argument('--headless')browser = webdriver.Chrome(chrome_options=chrome_options)browser.g...原创 2020-03-16 09:27:53 · 782 阅读 · 0 评论 -
0315 Selenium详解
1.难点 获取不了网页真正的源代码Selenium是一个自动化测试工具,它能够驱动浏览器模拟人的操作,比如鼠标点击,键盘输入等操作。通过Selenium库我们能够相对比较容易地获取到网页的源代码,并且而且学完它之后,我们还可以进行之后会讲到的批量PDF下载等。让人头疼的问题:获取不了网页真正的源代码。比如 上交所公开信息及新浪财经 的股票实时数据,这个你用我们之前所用用的获取...原创 2020-03-16 07:26:08 · 157 阅读 · 0 评论 -
0315 金融爬虫笔记
3.1.1 获取网页源代码获得网页源代码的代码:import requestsheaders = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}url = 'https:...原创 2020-03-16 04:43:23 · 186 阅读 · 0 评论 -
七月金融风控
评价:个人认为课程质量不高,老师是懂金融风控的。但是代码和课程的难度只能说是入门级。抱着扎实代码和学习新的代码表达的态度,希望自己坚持看完吧。一、金融风控业务详解二、决策树知识对应的代码三、分箱操作...原创 2020-02-27 09:32:52 · 250 阅读 · 0 评论